Analysis and evaluation of Comparable Corpora for Under Resourced Areas of machine Translation

Σχετικά με το Έργο

Το ACCURAT είναι ένα Συνεργατικό Έργο, το οποίο έχει λάβει χρηματοδότηση από την Ευρωπαϊκή Επιτροπή στο πλαίσιο της Πρόσκλησης FP7-ICT-2009-4 και ειδικότερα του Στόχου ICT 2009.2.2. Language-Based Interaction (Αλληλεπίδραση βάσει της γλώσσας), και σύμφωνα με τους όρους της με αρ. 248347 σύμβασης.

Περίληψη του Έργου

Ο στόχος του ACCURAT είναι να διερευνήσει μεθόδους και τεχνικές, οι οποίες θα επιτρέψουν την αποτελεσματική αντιμετώπιση ενός από τα βασικά προβλήματα της μηχανικής μετάφρασης (ΜΜ) - απουσία γλωσσικών πόρων, εξ αιτίας της οποίας τα συστήματα ΜΜ αδυνατούν να υποστηρίξουν επαρκώς πλήθος γλωσσών και γνωστικών περιοχών. Ο βασικός σκοπός του Έργου είναι να βρει, να αναλύσει και να αξιολογήσει καινοτόμες μεθόδους, οι οποίες αξιοποιούν τα συγκρίσιμα σώματα κειμένων, ώστε να εξισορροπηθεί η έλλειψη γλωσσικών πόρων και εν τέλει να βελτιωθεί σημαντικά η ποιότητα της μηχανικής μετάφρασης για γλώσσες με ελάχιστους διαθέσιμους γλωσσικούς πόρους και για εξειδικευμένα θεματικά πεδία.

Το κατά πόσο είναι εφαρμόσιμες οι τρέχουσες μέθοδοι ΜΜ, οι οποίες στηρίζονται σε δεδομένα, εξαρτάται από την διαθεσιμότητα πολύ μεγάλων παράλληλων σωμάτων κειμένων. Για το λόγο αυτό, η ποιότητα μετάφρασης των σημερινών συστημάτων ΜΜ, τα οποία βασίζονται σε εμπειρικά δεδομένα, διαφοροποιείται σημαντικά και κυμαίνεται από αρκετά καλή, στις περιπτώσεις γλωσσικών ζευγών με διαθέσιμα πολύ μεγάλα παράλληλα σώματα κειμένων (π.χ. Αγγλικά και Γαλλικά), έως πολύ κακή (το αποτέλεσμα είναι σχεδόν άχρηστο), στις περιπτώσεις γλωσσών (π.χ. Λετονικά και Κροατικά) και θεματικών περιοχών για τις οποίες δεν διατίθενται σε επάρκεια οι αναγκαίοι γλωσσικοί πόροι. Επομένως, ο απώτερος στόχος του ACCURAT είναι η επίτευξη σημαντικής βελτίωσης της ποιότητας μετάφρασης για γλώσσες και γνωστικά πεδία, όπου οι απαραίτητοι γλωσσικοί πόροι δεν υπάρχουν ή δεν επαρκούν.

Η καινοτομική συνεισφορά του ACCURAT είναι η δημιουργία μεθοδολογίας και εργαλείων, με τις οποίες θα μπορεί κανείς να μετρήσει, να βρει και να χρησιμοποιήσει συγκρίσιμα σώματα κειμένων, προκειμένου να υπάρξει μετρήσιμη βελτίωση στην ποιότητα μετάφρασης για γλώσσες και για εξειδικευμένα θεματικά πεδία με περιορισμένους αντίστοιχους γλωσσικούς πόρους. Με αυτόν τον τρόπο το ACCURAT θα συνεισφέρει σημαντικά όχι μόνο στη θεωρία της Μηχανικής Μετάφρασης αλλά και στη γλωσσολογία σωμάτων κειμένων, στην εξαγωγή πληροφορίας και στην επεξεργασία φυσικής γλώσσας γενικότερα, ενώ θα ενισχύσει κατά πολύ το θεωρητικό υπόβαθρο και τη μεθοδολογία της έρευνας στη γλωσσολογία σωμάτων κειμένων.

Επιστημονικοί στόχοι

  • Δημιουργία μετρικών συγκρισιμότητας σωμάτων κειμένων – ο στόχος είναι να αναπτυχθεί μεθοδολογία και να θεσπισθούν κριτήρια με τα οποία να προσμετράται το πόσο συγκρίσιμα και σχετικά μεταξύ τους είναι τα γραμμένα σε διαφορετικές γλώσσες κείμενα ενός (δίγλωσσου) συγκρίσιμου σώματος κειμένων.
  • Έρευνα για μεθόδους στοίχισης και εξαγωγής λεξιλογικών, ορολογικών και άλλων γλωσσικών δεδομένων από συγκρίσιμα σώματα κειμένων.
  • Έρευνα για μεθόδους αυτόματης ανάκτησης συγκρίσιμων σωμάτων κειμένων από το Διαδίκτυο.
  • Ποσοτικοποιημένη εκτίμηση των βελτιώσεων, τις οποίες αναμένεται να παρουσιάσουν υφιστάμενα συστήματα στατιστικής ΜΜ και κανονιστικά συστήματα ΜΜ, όταν σε αυτά γίνει αξιοποίηση των δεδομένων που προέκυψαν με βάση τις προαναφερθείσες μεθόδους.

Το Έργο θα χρησιμοποιήσει ως γραμμή βάσης τα τελευταία μοντέλα συστημάτων στατιστικής ΜΜ και κανονιστικών συστημάτων ΜΜ και θα προτείνει νέες μεθόδους, ώστε να επιτευχθούν καλύτερα αποτελέσματα, μέσω της διεύρυνσης των δυνατοτήτων αυτών των συστημάτων από την χρήση συγκρίσιμων σωμάτων κειμένων. Σχετική αρχική έρευνα απέδωσε ικανοποιητικά αποτελέσματα από την χρήση συγκρίσιμων σωμάτων κειμένων στη στατιστική ΜΜ (Munteanu and Marcu, 2005) και την κανονιστική ΜΜ (Thurmair, 2006). Το γεγονός αυτό εμπνέει την κοινοπραξία του ACCURAT με εμπιστοσύνη σχετικά με τη δυνατότητα επιτυχίας του όλου εγχειρήματος.

Τεχνολογικοί στόχοι

  • Ανάπτυξη μεθόδων και εργαλείων που θα επιλέγουν αυτόματα παρόμοια κείμενα από συγκρίσιμα σώματα κειμένων και θα τα στοιχίζουν σε επίπεδο παραγράφου και πρότασης, και αυτό για επιλεγμένα κείμενα με διαφορετικό βαθμό παραλληλισμού.
  • Διεξοδική ανάπτυξη προχωρημένων τεχνικών για εξαγωγή λεξιλογικών, ορολογικών και άλλων γλωσσικών δεδομένων από συγκρίσιμα σώματα κειμένων με σκοπό την αξιοποίηση των δεδομένων αυτών για εκπαίδευση και προσαρμογή συστημάτων ΜΜ.
  • Ανάπτυξη μεθόδων και εργαλείων για την αυτόματη ανάκτηση συγκρίσιμων σωμάτων κειμένων από το Διαδίκτυο.
  • Βελτίωση της απόδοσης των συμβατικών στατιστικών συστημάτων ΜΜ και των κανονιστικών συστημάτων ΜΜ μετά την τροφοδοσία τους με δεδομένα που προήλθαν από συγκρίσιμα σώματα κειμένων.
  • Αξιολόγηση και επικύρωση των αποτελεσμάτων του ACCURAT σε τρεις πρακτικές εφαρμογές, για κάθε μία από τις οποίες ένα ξεχωριστό σύστημα ΜΜ θα αναπτυχθεί. Το κάθε ένα από αυτά τα τρία συστήματα θα είναι ένα βασικής γραμμής σύστημα ΜΜ εκπαιδευμένο με δεδομένα που έχουν προέλθει από συγκρίσιμα σώματα κειμένων κατάλληλα για την κάθε εφαρμογή.

Το Έργο ACCURAT θα δώσει στους ερευνητές και στους κατασκευαστές συστημάτων ΜΜ μία μεθοδολογία και ένα πλήρως λειτουργικό μοντέλο για την αξιοποίηση των συγκρίσιμων σωμάτων κειμένων στη ΜΜ, το οποίο, μεταξύ άλλων, θα υποστηρίζει και δυνατότητες ανάκτησης σωμάτων κειμένων από το παγκόσμιο ιστό και από άλλες πηγές, ανάλυσης και μέτρησης συγκρισιμότητας, πολυεπίπεδης στοίχισης κειμένων και εξαγωγής λεξιλογικών δεδομένων, χρήσης τεχνικών εφαρμογής των στοιχισμένων κειμένων και των εξαχθέντων λεξιλογικών δεδομένων με σκοπό τη βελτίωση της μεταφραστικής ποιότητας υπαρχόντων συστημάτων στατιστικής ΜΜ και κανονιστικών συστημάτων ΜΜ.

Από το ACCURAT θα προκύψει μία βέλτιστη προσέγγιση για επίτευξη ποιοτικής μηχανικής μετάφρασης για μια σειρά από νέες επίσημες γλώσσες της Ευρωπαϊκής Ένωσης καθώς και από γλώσσες των συνεργαζόμενων χωρών, ενώ ακόμη θα αναπτυχθούν νέες μέθοδοι για την προσαρμογή υπαρχόντων τεχνολογιών μηχανικής μετάφρασης σε εξειδικευμένα θεματικά πεδία. Ως εκ τούτου, θα αυξηθεί σημαντικά ο αριθμός των γλωσσών και των θεματικών πεδίων που θα καλύπτει η αυτοματοποιημένη μετάφραση.

Η νέα μεθοδολογία του ACCURAT για τις περιοχές της ΜΜ με έλλειψη γλωσσικών πόρων θα είναι ανοικτή και προσβάσιμη σε ό,τι αφορά στις μετρικές συγκρισιμότητας, τις μεθόδους και τις τεχνικές στοίχισης συγκρίσιμων σωμάτων κειμένων, τις μεθόδους και τις τεχνικές εξαγωγής πληροφορίας από στοιχισμένα συγκρίσιμα σώματα κειμένων σε διάφορα επίπεδα (επίπεδο κειμένου, παραγράφου, φράσης / λέξης), τις μεθόδους και τις τεχνικές συλλογής συγκρίσιμων κειμένων από το Διαδίκτυο καθώς και τις συλλογές συγκρίσιμων σωμάτων κειμένων για τις γλώσσες που θα υποστηρίζει το Έργο.


| 2010-03-29 |

0