Analysis and evaluation of Comparable Corpora for Under Resourced Areas of machine Translation

Par projektu

ACCURAT ir kopprojekts, kas tiek finansēts saskaņā ar uzaicinājumu iesniegt priekšlikumus darba programmām FP7-ICT-2009-4 un procesu ICT-2009.2.2: Language-based interaction (Valodiskā saziņa) pēc līguma par subsīdijām Nr. 248347.

Projekta kopsavilkums

Projekta ACCURAT mērķis ir pētīt metodes un paņēmienus, kas izmantojami, lai novērstu vienu no galvenajām mašīntulkošanas (MT) problēmām — lingvistisko resursu trūkumu jomās, kurās mašīntulkošanas vajadzībām nav pieejams pietiekami daudz resursu. Tā galvenais uzdevums ir atrast, izanalizēt un novērtēt jaunas metodes, kurās, lai kompensētu lingvistisko resursu trūkumu un galu galā uzlabotu MT kvalitāti valodās, kurās nav pieejams pietiekami daudz resursu, kā arī šaurās jomās, tiek izmantoti salīdzināmu tekstu krājumi.

Pašreizējo no datiem atkarīgo apstrādes metožu lietojamību tieši ietekmē paralēltekstu krājumu apjoms. Tāpēc pašreizējo no datiem atkarīgo MT sistēmu tulkojumu kvalitāte ir ļoti atšķirīga — no diezgan labas valodu pāros, kuros pieejami ļoti apjomīgi teksta krājumi (piemēram, angļu un franču), līdz tikpat kā nelietojamai valodās un jomās, kurās nav pieejams pietiekami daudz resursu (piemēram, latviešu un horvātu). Tāpēc projekta ACCURAT galvenais uzdevums ir panākt būtisku tulkojumu kvalitātes uzlabojumu valodās, kurās nav pieejams pietiekami daudz resursu, un šaurās jomās.

Projekta ACCURAT galvenā novitāte būs salīdzināmo tekstu krājumu atrašanas un izmantošanas metodoloģijas un rīku izstrāde, lai uzlabotu MT kvalitāti valodās un jomās, kurās nav pieejams pietiekami daudz resursu. Tādējādi projekts ACCURAT sniegs būtisku devumu ne tikai MT teorijā, bet arī korpusa lingvistikā, informācijas izguvē un dabiskās valodas apstrādē kopumā, kā arī būtiski veicinās teorētiskos atklājumus un korpusa lingvistikas pētījumu metodoloģijas attīstību.

Zinātniskie mērķi

  • Salīdzināmības rādītāju izveide — lai izstrādātu metodoloģiju un noteiktu nepieciešamos avota un mērķa valodas dokumentu salīdzināmības kritērijus salīdzināmo tekstu krājumos.
  • Salīdzināmo tekstu krājumos pieejamo leksisko, terminoloģisko un citu lingvistisko datu atbilsmju atrašanas un izguves metožu izpēte.
  • Tīmeklī pieejamo salīdzināmo tekstu krājumu automātiskās ieguves metožu izpēte.
  • Iegūto datu izmantošanas radīto uzlabojumu mērīšana, salīdzinot tos ar SMT un RBMT sistēmu pamatrezultātiem.

Šajā projektā par pamatrezultātu avotiem tiks izmantotas modernākās SMT un ar likumiem pamatotas MT sistēmas, kā arī piedāvās jaunas metodes, kas lietojamas, lai uzlabotu rezultātus, šo sistēmu darbību papildinot ar salīdzināmo tekstu krājumu izmantošanu. Sākotnējā izpētē ir iegūti daudzsološi salīdzināmo tekstu krājumu izmantošanas rezultāti SMT (Munteanu and Marcu, 2005; sk. tālāk arī nodaļu par pašreizējo stāvokli) un RBMT (Thurmair, 2006), un ACCURAT konsorcijā tas rada pārliecību par piedāvātās metodes izmantošanas iespējamību.

Tehnoloģiskie mērķi

  • Tādu metožu un rīku izstrāde, kas nodrošina līdzīgu dokumentu automātisku atlasi salīdzināmo tekstu krājumos un to atbilsmju atrašanu rindkopu/teikumu līmenī dažādas paralēlisma pakāpes tekstos.
  • Detalizēta modernu paņēmienu izstrāde, lai no salīdzināmo tekstu krājumiem izgūtu leksiskos, terminoloģiskos un citus lingvistiskos datus, kas nepieciešami, lai nodrošinātu MT trenēšanas un pielāgošanas datus.
  • Tīmeklī pieejamu salīdzināmu tekstu krājumu automātiskas ieguves metožu un rīku izstrāde.
  • Pamatlīmeņa SMT un RBMT sistēmu kvalitātes uzlabošana, integrējot tajās no salīdzināmo tekstu krājumiem izgūtos datus.
  • Projekta ACCURAT rezultātu izvērtēšana un apstiprināšana, izmantojot trīs praktiskas lietojumprogrammas.

Projektā ACCURAT tiks pētīti divi plašāka lietojuma gadījumi, kuros lingvistisko resursu nepietiekamība izraisa lielas problēmas — mašīntulkošanas pielāgošana valodās, kurās nav pieejams pietiekami daudz resursu, un šaurās jomās.

Lai uzlabotu tulkošanas kvalitāti esošajās SMT un RBMT sistēmās, projektā ACCURAT pētniekiem un izstrādātājiem tiks nodrošināta metodoloģija un pilnībā funkcionējošs MT lietojams salīdzināmo tekstu krājumu izmantošanas modelis, ieskaitot tekstu krājumu ieguvi no tīmekļa un citiem avotiem, salīdzināmības analīzi un rādītājus, atbilsmju atrašanu vairākos līmeņos un leksisko datu izguvi, kā arī atbilstīgo tekstu un izgūto leksisko datu lietošanas paņēmienus.

Projektā ACCURAT tiks izstrādāta optimāla metode, kas ļaus iegūt kvalitatīvu MT tulkojumu vairākās jauno ES dalībvalstu oficiālajās valodās un asociēto valstu valodās, kā arī jaunas esošās MT tehnoloģijas adaptēšanas metodes specifiskās šaurās jomās, būtiski palielinot valodu un jomu nodrošinājumu automātiskajā tulkošanā.

MT jomās, kurās nav pieejams pietiekami daudz resursu, projekts ACCURAT savu jauno metodoloģiju padarīs publiski pieejamu attiecībā uz salīdzināmības rādītājiem, salīdzināmo tekstu krājumu atbilsmju atrašanas metodēm un paņēmieniem, metodēm un paņēmieniem, kuros informācija tiek izgūta no atbilstīgiem salīdzināmiem tekstiem dažādos līmeņos (dokumentos, rindkopās, frāzēs/vārdos) , tīmeklī pieejamo salīdzināmo tekstu krājumu izveides metodēm un paņēmieniem, kā arī projekta valodās pieejamo salīdzināmo tekstu krājumu izveidi.


| 2010-03-30 |

0