About
Il progetto si occupa di esplorare empiricamente la risoluzione di coreferenze nei corpora latini. Il suo obiettivo è quello di contribuire a incrementare la conoscenza e la discussione in merito a un livello di annotazione metalinguistica che trova poco spazio nelle ricerche sulle risorse linguistiche e sulla trattazione automatica del linguaggio applicate al latino.
Il progetto prevede due fasi operative:
- Nella prima fase, si delineano le linee guida dell'annotazione, si individua lo strumento di annotazione e si procede con l'annotazione dei testi latini selezionati.
- Nella seconda fase, si addestra un modello per il riconoscimento automatico delle coreferenze nei testi latini.
I testi latini sono selezionati in modo da costituire un corpus sufficientemente rappresentativo ed equilibrato per genere letterario ed epoca. Vengono utilizzati testi latini già arricchiti con lemmatizzazione e Part-of-Speech (PoS)-tagging e collegati alla LiLa Knowledge Base, una raccolta di molteplici risorse linguistiche per il latino descritte con lo stesso vocabolario di conoscenza e interconnesse secondo i principi del paradigma Linked Data (https://lila-erc.eu/#page-top).
Segue l'elenco dei corpora dei testi che si prevede di arricchire con l'annotazione di coreferenza nell'ambito di questo progetto:
- Latino classico. I dati sono tratti dal corpus LASLA (http://web.philo.ulg.ac.be/lasla/textes-latins-traites/), un'ampia raccolta di circa 1,7 milioni di parole provenienti da oltre 130 testi classici e tardo-latini lemmatizzati e contrassegnati morfologicamente. I dati di partenza sono stati resi liberamente disponibili sul repository del laboratorio LASLA prima dell'inizio di questo progetto e sono accessibili attraverso la LiLa Knowledge Base all'indirizzo https://lila-erc.eu/data/corpora/Lasla/id/corpus.
- Tardo latino. I dati sono tratti dal corpus Computational Historical Semantics Corpus (http://lila-erc.eu/data/corpora/CompHistSem/id/corpus), un progetto cooperativo che coinvolge le università di Bielefeld, Francoforte, Ratisbona e Tubinga. Il database testuale del progetto raccoglie più di 4000 testi che vanno dal II al XV secolo d.C. La sezione del database collegata a LiLa comprende 5 testi per un totale di circa 1 milione di parole.
- Latino medievale. I dati saranno tratti dal Circse Digital Library. Il testo delle Confessiones Corpus è accessibile attraverso la LiLa Knowledge Base all’indirizzo http://lila-erc.eu/data/corpora/CIRCSELatinLibrary/id/corpus/Confessiones.
Al termine del progetto, i testi arricchiti dall'annotazione coreferenziale saranno resi accessibili pubblicamente e resi interoperabili con le altre risorse linguistiche pubblicate nella risorsa Lila Knowledge Base.