Analysis and evaluation of Comparable Corpora for Under Resourced Areas of machine Translation

Despre proiect

ACCURAT este un proiect colaborativ finanţat în apelul FP7-ICT-2009-4, secţiunea ICT-2009.2.2: Language-based interaction, cu numărul 248347.

Rezumatul proiectului

Proiectul ACCURAT urmăreşte să dezvolte metode şi tehnici care să rezolve una dintre cele mai importante probleme ale traducerii automate (TA) – lipsa resurselor lingvistice pentru anumite zone ale domeniului. Scopul principal constă în identificarea, analiza şi evaluarea unor noi metode care să exploateze corpusuri comparabile, pentru a compensa deficitul de resurse lingvistice şi, în ultimă instanţă, îmbunătăţirea semnificativă a calităţii traducerii pentru limbile cu resurse lingvistice insuficiente şi pentru domeniile restrânse.

Aplicativitatea metodelor orientate pe date actuale depinde de existenţa unor mari cantităţi de date în forma corpusurilor paralele. Din acest motiv, calitatea traducerii oferită de sistemele TA actuale bazate pe corpus variază semnificativ, fiind bună pentru perechile de limbi care dispun de corpusuri de mari dimensiuni (de ex. engleza şi franceza) şi aproape inutilizabilă pentru limbile cu resurse lingvistice insuficiente (de ex. letona şi croata). Scopul final al proiectului ACCURAT este să obţină o creştere semnificativă a calităţii traducerii pentru limbile cu resurse lingvistice puţine şi pentru domeniile restrânse.

Inovaţia esenţială a proiectului ACCURAT va fi crearea de metodologii şi instrumente pentru măsurarea, identificarea şi utilizarea corpusurilor comparabile pentru a îmbunătăţi calitatea TA pentru limbi şi domenii cu puţine resurse lingvistice. Astfel, ACCURAT va aduce contribuţii semnificative teoriei TA, Extragerii de Informaţii şi Prelucrării Limbajului Natural, în general, şi va avansa fundamentele teoretice şi metodologia de cercetare a Lingvisticii Corpusului.

Obiectivele ştiinţifice ale proiectului ACCURAT sunt:

  • crearea de metrici de comparabilitate: dezvoltarea metodologiei şi determinarea criteriilor pentru măsurarea comparabilităţii documentelor în limba sursă şi limba ţintă din corpusurile comparabile (WP1, M9);
  • cercetarea metodelor de aliniere şi extragere a informaţiei lexicale, terminologice şi a altor date de tip lingvistic din corpusurile comparabile (WP2, M20);
  • cercetarea metodelor de achiziţie automată a corpusurilor comparabile de pe Web (WP3, M22);
  • evaluarea progreselor datorate utilizării datelor achiziţionate în raport cu resultate de referinţă ale unor sisteme de referinţă din SMT şi RBMT (WP4, M26).

Proiectul va folosi sisteme SMT şi RMT de ultim nivel tehnologic ca sisteme de referinţă şi va furniza metode noi pentru a obţine rezultate mai bune extinzând aceste sisteme prin utilizarea corpusurilor comparabile. Cercetări iniţiale arată rezultate promiţătoare ale utilizării corpusurilor comparabile în SMT (Munteanu and Marcu, 2005) şi RBMT (Thurmair, 2006) iar aceasta oferă consorţiului ACCURAT încrederea în fezabilitatea abordării propuse.

Obiective tehnologice:

  • dezvoltarea metodelor automate de selectare a documentelor similare din corpusuri comparabile şi alinierea lor la nivel de paragraf/propoziţie pentru texte cu diferite grade de paralelism (WP2, M16);
  • să elaboreze tehnici avansate pentru extragerea de informaţie lingivistică de diverse tipuri (lexicală, terminologică etc.) din corpusuri comparabile pentru a furniza date de antrenare şi adaptare pentru TA (WP2, M20);
  • dezvoltarea metodelor şi instrumentelor pentru achiziţia automată de corpusuri comparabile de pe Web (WP3, M22);
  • evaluarea şi validarea rezultatelor proiectului ACCURAT în trei aplicaţii practice (WP5, M30).

În cadrul proiectului ACCURAT se vor investiga două cazuri mai ample de utilizare, în care lipsa resurselor lingvistice ridică o problem majoră – adaptarea traducerii automate la limbi cu puţine resurse lingvistice şi la domeniile restrânse.

Proiectul ACCURAT va furniza cercetătorilor şi dezvoltatorilor noi metodologii şi modele complet funcţionale pentru exploatarea corpusurilor comparabile în TA, incluzând achiziţie de corpus comparabil de pe Web şi din alte surse, analiză şi metrici de comparabilitate, aliniere multi-nivel,  extragere de infomaţii lingvistice şi tehnici pentru utilizarea textului aliniat şi a informaţiilor lexicale extrase la creşterea calităţii traducerii a actualelor sisteme SMT şi RBMT.

ACCURAT va furniza o abordare optimă în scopul obţinerii de traducere automată de calitate pentru un număr de limbi noi ale Uniunii Europene şi ale altor ţări asociate, precum şi abordări noi pentru adaptarea tehnologiilor de TA existente la domenii restrânse specifice, crescând semnificativ acoperirea lingvistică şi de domeniu a TA.

Noua tehnologie pentru zone cu puţine resurse lingvistice dezvoltată în ACCURAT va fi accesibilă public în ceea ce priveşte metricile de comparabilitate, metodele şi tehnicile de aliniere a corpusurilor comparabile, metodele şi tehnicile de extragere a informaţiilor din corpusuri comparabile aliniate la diverse niveluri (document, paragraph, sintagmă/cuvânt), metodele şi tehnicile de colectare a corpusurilor comparabile de pe Web, precum şi colecţiile de corpusuri comparabile pentru limbile proiectului.


| 2010-03-29 |

0