Analysis and evaluation of Comparable Corpora for Under Resourced Areas of machine Translation

O projektu

ACCURAT je suradni projekt financiran u okviru FP7-ICT-2009-4 prema pozivu za prijavu ICT-2009/2/2: Jezičnoutemeljena interakcija i prema Općem ugovoru o potpori br. 248.347.

Sažetak projekta

Cilj je projekta ACCURAT istražiti metode i tehnike za prevladavanje jedoga od središnjih problema strojnog prevođenja (MT) – nedostatak jezičnih resursa za područja strojnog prevođenja za koja su ti resursi nedostatni. Glavni je cilj pronaći, analizirati i vrjednovati nove metode koje bi koristile usporedive korpuse kako bi se nadoknadio manjak jezičnih resursa te u konačnici značajno poboljšala kakvoća strojnoga prevođenja za jezike i uske domene za koja su resursi nedostatni.

Primjenljivost aktualnih metode utemeljenih na podatcima izravno ovisi o dostupnosti iznimno velikih količina usporednih korpusnih podataka. Zbog toga kakvoća prijevoda aktualnih sustava za strojno prevođenje utemeljenih na podatcima dramatično varira od toga da je prilično visoka za jezične parove s dostupnim velikim korpusima (npr. engleski i francuski), pa do gotovo neupotrebljive za jezike i domene s nedostatnim jezičnim resursima (npr. letonski i hrvatski). Stoga je konačni cilja projekta ACCURAT postići značajan porast kakvoće prijevoda za jezika i uske domene za koje su ti resursi nedostatni.

Ključna inovacija projekta ACCURAT bit će stvaranje metodologije i alata za mjerenje, pronalaženje i korištenje usporedivih korpusa za poboljšanje kakvoće strojnoga prevođenja za jezike i domene s nedostatnim resursima. Stoga se očekuje kako će projekt ACCURAT donijeti značajan doprinos ne samo u teoriji strojnoga prevođenja, nego i korpusne lingvistike, crpljenja obavijesti i obrade prirodnoga jezika u cjelini te kako će snažno unaprijediti teorijske osnove i metodologiju istraživanja u korpusnoj lingvistici.

Znanstveni ciljevi

  • sastaviti metrike usporedivosti – razviti metodologiju i utvrditi kriterije za mjerenje usporedivosti dokumenata na izvornom i ciljnom jeziku u usporedivim korpusima;
  • istražiti metode za sravnjivanje i crpljenje leksičkih, terminoloških i drugih jezičnih jedinica iz usporedivih korpusa;
  • istražiti metode za automatsko prikupljanje usporedivih korpusa s weba;
  • poboljšati rezultate primjenom prikupljenih podataka na polaznu kakvoću sustava za statističko strojno prevođenje i sustava za strojno prevođenje temeljeno na pravilima.

Projekt će koristiti najnovije spoznaje u statističkome strojnom prevođenju kao i strojnom prevođenju temeljenom na pravilima kao svoju osnovicu ne bi li proizveo nove metode kojma bi se trebali postići znatno bolji rezultati proširenjem tih sustava kroz uporabu usporedivih korpusa. Početna istraživanja ukazuju na obećavajuće rezultate uporabe usporedivih korpusa u statističkome strojnome prevođenju (Munteanu i Marcu, 2005) i strojnome prevođenju temeljenom na pravilima (Thurmair, 2006), a upravo zbog toga konzorcij projekta ACCURAT uvjeren je u izvedivost predloženog pristupa.

Tehnologijski ciljevi

  • razviti metode i alate za automatski odabir sličnih dokumenata iz usporedivih korpusa i njihovo sravnjivane na razini odlomka/rečence za tekstove s različitim stupnjem usporednosti;
  • razraditi napredne tehnike za crpljenje leksičkih, terminoloških i ostalih jezičnih jedinica iz usporedivih korpusa kako bi se osiguralo treniranje i prilagodba sustava za strojno prevođenje;
  • razviti metode i alata za automatsko prikupljanje usporedivih korpusa s weba;
  • poboljšati polaznu kakvoću sustava za statističko strojno prevođenje i strojno prevođenje temeljeno na pravilima uključivanje podataka prikupljenih iz usporedivih korpusa;
  • vrjednovati i potvrditi rezulate projekta ACCURAT u barem tri praktične primjene.

Projekt ACCURAT istražiti će dva uporabna slučaja gdje nedostatak jezičnih resursa predstavlja veliki izazov – prilagođavanje strojnoga prevođenja za jezike i uske domene s nedostatnim resursima.

Projekt ACCURAT pružit će istraživačima i programerima metodologiju i potpun funkcionalan model za uporabu usporedivih korpusa u strojnome prevođenju, uključujući i prikupljanje korpusa s weba i iz drugih izvora, analizu i mjerenje usporedivosti, višerazinsko sravnjivanje, crpljenje leksičkih jedinica kao i načine primjene sravnjenoga teksta s crpljenim leksičkim jedinicama za povećanje kakvoće postojećih sustava za statističko strojno prevođenje i strojno prevođenje temeljeno na pravilima.

ACCURAT će pružiti optimalan pristup za podizanje kakvoće strojnoga prevođenja za čitav niz novih službenih jezika EU-a i jezika pridruženih zemalja, kao i nove pristupe za prilagodbu postojećih tehnologija strojnoga prevođenja na određene uske domene, čime će se znatno povećati pokrivenost jezika i domena strojnim prevođenjem.

ACCURAT će učiniti slobodno dostupnima svoje inovativne metodologije za jezike i domene s nedostatnim resursima za sljedeća područja: mjerenje usporedivosti, metode i tehnike sravnjivanja usporedivih korpusa, metode i tehnike crpljenja obavijesti iz usporedivih korpusa sravnjenih na različitim razinama (dokument, odlomak, fraza, riječ), metode i tehnike prikupljanja usporedivih korpusa s weba i zbirka usporedivih korpusa na projektim jezicima.

| 2010-03-31 |

0