Analysis and evaluation of Comparable Corpora for Under Resourced Areas of machine Translation

O Projektu

ACCURAT je partnerski projekt, financiran v okviru poziva FP7-ICT-2009-4 poziv ICT-2009.2.2: Language-based interaction, št. pogodbe: 248347.

Povzetek

Namen projekta ACCURAT je raziskava metod in tehnik za rešitev enega od osrednjih problemov strojnega prevajanja - pomanjkanje lingvističnih virov za podhranjena področja strojnega prevajanja. Glavni cilj je poiskati, analizirati in oceniti nove metode za uporabo primerljivih korpusov, ki bi nadomestile pomanjkanje lingvističnih virov in občutno izboljšati kvaliteto strojnega prevajanja za podhranjene jezike in specifična področja.

Uporabnost obstoječih metod temelji na velikih količinah podatkov iz vzporednih korpusov. Kvaliteta prevodov z uporabo sistemov za strojno prevajanje, ki temeljijo na podatkih zato zelo niha - od zelo dobre za pare jezikov, za katere so na voljo veliki vzporedni korpusi (npr. angleščina in francoščina) do skorajda neuporabnih za podhranjene jezike in specifična področja (npr. Slovenščina ali Latvijščina). Glavni cilj projekta ACCURAT je občutna izboljšava kvalitete prevodov za podhranjene jezike in specifična področja.

Ključna inovativnost projekta ACCURAT bo izdelava metodologije in orodij za merjenje, iskanje in uporabo primerljivih korpusov za izboljšanje  kvalitete strojnega prevajanja za podhranjene jezike in specifična področja. Projekt ACCURAT bo zato imel velik prispevek ne samo na področju teorije strojnega prevajanja, pač pa tudi na splošno na področju lingvistike korpusov, zajema informacij in procesiranja naravnih jezikov ter bo prispeval napredne teoretske osnove in metodologijo za raziskovanje lingvistike korpusov.

Znanstveni cilji

  • Izdelava metrik primerljivosti - razvoj metodologije in določitev kriterijev za merjenje primerljivosti dokumentov v primerljivih korpusih;
  • Raziskava metod za poravnavo in pridobivanje leksikografskih, terminoloških in drugih jezikovnih podatkov iz primerljivih korpusov;
  • Raziskava metod za avtomatsko pridobivanje primerljivih korpusov iz dokumentov, objavljenih na spletu;
  • Merjenje izboljšav na področju uporabe pridobljenih podatkov z osnovnimi rezultati sistemov SMT in RBMT.

Projekt bo kot osnovo uporabljal zadnja spoznanja na področju SMT in strojnega prevajanja s pomočjo pravil in ponujal nove metode za doseganje boljših rezultatov na podlagi razširitve teh sistemov z uporabo primerljivih korpusov. Začetne raziskave na tem področju kažejo obetavne rezultate pri uporabi primerljivih korpusov v SMT (Munteanu in Marcu, 2005;) in RBMT (Thurmair, 2006) zaradi česar konzorcij ACCURAT verjame v izvedljivost predlaganega pristopa.

Tehnološki cilji

  • Razvoj metod in orodij za avtomatsko izbiro podobnih dokumentov iz primerljivih korpusov in poravnavo na nivoju odstavkov/stavkov za besedila na različni stopnji primerljivosti;
  • Proučevanje naprednih tehnik za zajem leksičnih, terminoloških in drugih lingvističnih podatkov iz primerljivih korpusov za izdelavo učnih in prilagoditvenih podatkov za strojno prevajanje;
  • Razvoj metod in orodij za avtomatsko pridobivanje primerljivih korpusov na podlagi dokumentov, objavljenih na spletu;
  • Izboljšati kvaliteto osnovnih SMT in RBMT sistemov z integracijo podatkov iz primerljivih korpusov;
  • Ocenjevanje in vrednotenje rezultatov projekta ACCURAT s tremi praktičnimi aplikacijami.

Projekt ACCURAT bo proučeval dva širša primera uporabe, kjer pomanjkanje lingvističnih virov predstavlja velik izziv - prilagajanje strojnega prevajanja za  podhranjene jezike in specifična področja.

Projekt ACCURAT bo ponujal raziskovalcem in razvijalcem metodologijo in delujoč model za uporabo primerljivih korpusov na področju strojnega prevajanja, vključno s pridobivanje korpusov na podlagi dokumentov, objavljenih na spletu in dokumentov iz drugih virov, analizo, metrikami primerljivosti, večplastno poravnavo in pridobivanje leksičnih podatkov in tehnik za uporabo poravnanih tekstov in pridobljenih leksičnih podatkov za povečanje kvalitete prevodov obstoječih SMT in RBMT sistemov.

ACCURAT bo ponujal optimalni pristop za zagotavljanje kvalitete strojnega prevajanja za številne nove uradne jezike EU in jezike pridruženih članic kot tudi nove pristope za uporabo obstoječih tehnik strojnega prevajanja za specifična področja ter občutno povečanje pokritosti jezikov in področij za avtomatsko prevajanje.

ACCURAT bo svojo novo metodologijo ponujal kot prosto dostopno za podhranjena področja strojnega prevajanja na področju metrik primerljivosti, metod in tehnik za poravnavo primerljivih korpusov, metod in tehnik za pridobivanje informacij iz poravnanih primerljivih korpusov na različnih nivojih (dokumentov, odstavkov, fraz/besed), metod in tehnik zbiranja primerljivih korpusov s spleta in zbiranje primerljivih korpusov za vse jezike v projektu sodelujočih organizacij.


| 2010-03-30 |

0