Analysis and evaluation of Comparable Corpora for Under Resourced Areas of machine Translation

Über das Projekt

ACCURAT ist ein Gemeinschaftsprojekt, das im Rahmen der Ausschreibung FP7-ICT-2009-4 und der Aktion ICT-2009.2.2: Language-based interaction unter dem Förderkennzeichen Nr. 248347 gefördert wird.

Überblick

Das Projekt ACCURAT zielt auf die Erforschung von Methoden und Techniken zur Überwindung eines der zentralen Probleme in der Maschinellen Übersetzung (MÜ) - das Fehlen der sprachlichen Ressourcen (z. B. Trainingsdaten) für bestimmte Bereiche der MÜ, in denen solche Ressourcen essentiell wichtig sind. Das Hauptziel ist es, neue Methoden zu finden, zu analysieren und zu evaluieren, die vergleichbare Korpora ausnutzen, um den Mangel and linguistischen Resourcen auszugleichen und um schließlich die Qualität maschineller Übersetzung für unterversorgte Sprachen und enge Domänen signifikant zu erhöhen.

Die Anwendbarkeit derzeitiger datengestützter Methoden hängt direkt von der Verfügbarkeit sehr großer Mengen paralleler Korpora ab. Aus diesem Grund variiert die Übersetzungsqualität derzeitiger datengestützter MÜ-Systeme dramatisch – von sehr gut für Sprachpaare mit sehr großen verfügbaren Korpora (z.B. Englisch und Französisch) bis nahezu unbrauchbar für unterversorgte Sprachen und Domänen (z.B. Lettisch oder Kroatisch). Daher besteht das letzliche Ziel von ACCURAT darin, für solche unterversorgte Sprachen und Domänen eine signifikante Verbesserung der Übersetzungsqualität zu erreichen.

Die Schlüsselinnovation von ACCURAT wird die Schaffung von Methoden und Werkzeugen sein, um vergleichbare Korpora zu finden, zu bewerten und zu verwenden, um die Qualität von MÜ für unterversorgte Sprachen und Domänen zu verbessern. Daher wird ACCURAT signifikante Beiträge nicht nur zur Theorie der MÜ leisten, sondern auch zur Korpuslinguistik, Informationsextraktion, und zur Sprachverarbeitung im Allgemeinen und wird die theoretischen Grundlagen und die Forschungsmethoden der Korpuslinguistik entscheidend voranbringen.

Wissenschaftliche Ziele

  • Erstellen von Vergleichbarkeitsmetriken –Entwickeln von Methoden und Bestimmung von Kriterien, um die Vergleichbarkeit von Dokumenten in Ausgangs- und Zielsprache in vergleichbaren Korpora zu messen;
  • Erforschung von Methoden für das Alignment und die Extraktion von lexikalischen, terminologischen und anderen sprachlichen Daten aus vergleichbaren Korpora;
  • Erforschung von Methoden zur automatischen Erfassung von vergleichbaren Korpora aus dem Web;
  • Messung der Verbesserungen aus der Anwendung der gewonnenen Daten gegenüber baseline-Ergebnissen von SMT- und RBMT-Systemen

Das Projekt wird statistische und regelbasierte MT-Systeme, die auf dem aktuellen Stand der Forschung basieren, als Grundlage nutzen und neuartige Methoden bereitstellen, um viel bessere Ergebnisse dadurch zu erreichen, dass diese Systeme durch den Einsatz von vergleichbaren Korpora erweitert werden. Erste Untersuchungen zeigen viel versprechende Ergebnisse bei der Verwendung von vergleichbaren Korpora in SMT (Munteanu und Marcu, 2005; siehe auch Kapitel über den neusten Stand der Forschung unten) und RBMT (Thurmair, 2006) und das stimmt das ACCURAT-Konsortium zuversichtlich, dass der vorgeschlagene Ansatz plausibel und durchführbar ist.

Technologische Ziele

  • Entwicklung von Methoden und Werkzeugen, um aus Texten mit unterschiedlichen Graden an Parallelität automatisch ähnliche Dokumente auszuwählen und sie auf Absatz- bzw. Satzebene zu alignieren;
  • Ausarbeitung von hoch entwickelten Techniken für die Extraktion von lexikalischen, terminologischen und anderen sprachlichen Informationen aus vergleichbaren Korpora, um Trainings- und Anpassungsdaten für MT bereitzustellen;
  • Entwicklung von Methoden und Werkzeugen zur automatischen Erfassung von vergleichbaren Korpora aus dem Web;
  • Verbesserung der Qualität der zu Grunde liegenden SMT- und RBMT-Systeme durch Integration von Daten, die aus vergleichbaren Korpora extrahiert wurden;
  • Bewertung und Validierung der Projektergebnisse in drei praktischen Anwendungen.

Das Projekt untersucht zwei weit gefasste Anwendungsfälle, in denen die Knappheit der sprachlichen Ressourcen eine große Herausforderung

darstellt: Anpassung der maschinellen Übersetzung für Sprachen mit wenig Resourcen und für stark eingegrenzte Domänen.

Das Projekt wird den Forschern und Entwicklern eine Methodik und ein voll funktionsfähiges Modell für die Ausbeutung vergleichbarer Korpora in MT bereitstellen, einschließlich der Korpusakquisition aus dem Internet und anderen Quellen, Vergleichbarkeitsanalysen und -metriken, Multi-Level-Alignierung und Extraktion von lexikalischen Daten sowie Techniken für die Anwendung von aligniertem Text und extrahierten lexikalische Daten, um die Übersetzungsqualität der bestehenden SMT- und RBMT-Systeme zu erhöhen.

ACCURAT wird einen optimalen Ansatz bieten, um maschinelle Übersetzung für eine Reihe von neuen EU-Amtssprachen und Sprachen nahestehender Länder in guter Qualität zu ermöglichen, und zugleich neue Ansätze für die Anpassung der vorhandenen Technologien an bestimmte begrenzte Domämen zur Verfügung stellen, wodurch die Sprach- und Domänenabdeckung von automatischer Übersetzung deutlich erhöht wird.

ACCURAT wird die folgende neue Methodik für MT-Gebiete mit wenig Ressourcen offen zugänglich machen: zum einen die Vergleichbarkeitsmetriken, zum zweiten die Methoden und Techniken für die Alignierung vergleichbarer Korpora, für die Informationsextraktion aus vergleichbaren Korpora, die auf unterschiedlichen Ebenen (Dokument, Absatz, Satz/Wort) aligniert sind, und für die Erfassung vergleichbarer Korpora aus dem Web und zum dritten Sammlungen vergleichbarer Korpora für alle im Projekt behandelten Sprachen.

| 2010-03-24 |

0