Μια ολοκληρωμένη αξιολόγηση των μεταφραστικών δυνατοτήτων της Lara

Για να αξιολογήσουμε την απόδοση της Lara, μεταφράσαμε 300 προτάσεις από τα Αγγλικά στις πιο συχνά απαιτούμενες γλώσσες τοπικής προσαρμογής, χρησιμοποιώντας τη Lara και διάφορα συστήματα μηχανικής μετάφρασης. Στη συνέχεια, ζητήσαμε από επαγγελματίες μεταφραστές να αξιολογήσουν την ακρίβεια κάθε μετάφρασης. Ζητήσαμε επίσης από επαγγελματίες μεταφραστές να επισημάνουν σφάλματα τόσο στις μεταφράσεις της Lara όσο και σε εκείνες που πραγματοποιήθηκαν από συναδέλφους τους, και συγκεκριμένα από μεταφραστές στο μέσο επίπεδο και στο κορυφαίο 1% του δικτύου μας.

Αξιολόγηση της ακρίβειας της Lara έναντι άλλων συστημάτων μηχανικής μετάφρασης

Οι επαγγελματίες μεταφραστές προτιμούν τη LaraΠοιότητα* (%)40%30%60%50%70%80%ΟικονομικάΤεχνολογίαΤουρισμόςΓενικάLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* Ποσοστό των περιπτώσεων στις οποίες τουλάχιστον 2 στους 3 επαγγελματίες μεταφραστές συμφώνησαν ότι μια μετάφραση ήταν ακριβής, βάσει 2.700 μεταφράσεων από τα Αγγλικά προς τα Ιταλικά, Γαλλικά, Ισπανικά, Γερμανικά, Πορτογαλικά, Ιαπωνικά, Κινεζικά, Ρωσικά και Κορεατικά.

Σχεδιάσαμε αυτήν την αξιολόγηση για να συγκρίνουμε την απόδοση διαφόρων μηχανών μηχανικής μετάφρασης χρησιμοποιώντας πραγματικό περιεχόμενο σε επίπεδο επιχείρησης. Το σύνολο δοκιμής μας περιλάμβανε 2.700 προτάσεις. Συγκεκριμένα, 300 αγγλικές προτάσεις οι οποίες μεταφράστηκαν από συστήματα μηχανικής μετάφρασης σε εννέα από τις γλώσσες με τη μεγαλύτερη ζήτηση για τοπική προσαρμογή: Ιταλικά, Γαλλικά, Ισπανικά, Γερμανικά, Πορτογαλικά, Ιαπωνικά, Κινεζικά, Ρωσικά και Κορεατικά. Η ακρίβεια αυτών των μηχανικών μεταφράσεων αξιολογήθηκε διεξοδικά από επαγγελματίες μεταφραστές που επιλέχθηκαν προσεκτικά για τη διαδικασία ελέγχου. Για να διασφαλίσουμε την αντικειμενικότητα και να εξαλείψουμε κάθε προκατάληψη, εφαρμόσαμε τη μέθοδο της διπλής τυφλής αξιολόγησης: οι αξιολογητές δεν γνώριζαν ποια μηχανή μετάφρασης παρήγαγε κάθε μετάφραση, ούτε είχαν πρόσβαση στις αξιολογήσεις των υπολοίπων. Αυτή η προσέγγιση επέτρεψε την αμερόληπτη και δίκαιη αξιολόγηση της απόδοσης κάθε συστήματος.

Ρύθμιση αξιολόγησης

Επιλέξαμε 300 πραγματικές προτάσεις από ενεργά μεταφραστικά έργα σε τρεις κλάδους: τον τουρισμό, τα οικονομικά και την τεχνολογία. Η αξιολόγηση επικεντρώθηκε στη μέτρηση της ακρίβειας των ακόλουθων μοντέλων μηχανικής μετάφρασης:

  • Lara
  • Μετάφραση Google
  • DeepL
  • Το GPT-4o της OpenAI (χρησιμοποιώντας μια προσέγγιση εκμάθησης 5 λήψεων, η οποία περιλαμβάνει την παροχή πέντε παραδειγμάτων μετάφρασης στο πλαίσιο της προτροπής για την καθοδήγηση και τη βελτίωση της μεταφραστικής απόδοσης του μοντέλου)

Διαδικασία αξιολόγησης

Επιλογή επαγγελματιών μεταφραστών

Για να αξιολογήσουμε την ποιότητα της μετάφρασης, επιλέξαμε επαγγελματίες μεταφραστές με κορυφαία απόδοση από ένα δίκτυο 500.000 μεταφραστών, χρησιμοποιώντας το T-Rank, ένα σύστημα κατάταξης με τεχνητή νοημοσύνη που αναπτύχθηκε από την Translated. Το T-Rank βοηθά στην επιλογή κορυφαίων, εξειδικευμένων επαγγελματιών μεταφραστών αξιολογώντας την προηγούμενη απόδοσή τους και την εξειδίκευσή τους βάσει περισσότερων από 30 κριτηρίων. Αυτό εξασφάλισε ότι οι μεταφραστές που επιλέχθηκαν για αξιολόγηση ήταν υψηλής ειδίκευσης φυσικοί ομιλητές των γλωσσών-στόχων.

Αξιολόγηση από άνθρωπο

Τρεις επαγγελματίες μεταφραστές, φυσικοί ομιλητές της εκάστοτε γλώσσας-στόχου, ανατέθηκαν ανεξάρτητα να εξετάσουν κάθε μεταφρασμένη πρόταση για κάθε γλώσσα-στόχο. Οι μεταφραστές δεν γνώριζαν ποιο μοντέλο παρήγαγε τις μεταφράσεις, εξασφαλίζοντας αμερόληπτη αξιολόγηση.

Συμφωνία πλειοψηφίας

Εάν τουλάχιστον δύο στους τρεις μεταφραστές συμφωνούσαν ότι μια μετάφραση ήταν κατάλληλη για επαγγελματική χρήση, το μοντέλο λάμβανε έναν βαθμό για τη συγκεκριμένη πρόταση. Αυτή η μέθοδος μείωσε την υποκειμενικότητα και έδωσε έμφαση στη συναίνεση.

Μεθοδολογία βαθμολόγησης

Η τελική βαθμολογία για κάθε μηχανή αντιπροσωπεύει το ποσοστό των περιπτώσεων όπου η πλειοψηφία των αξιολογητών ενέκριναν τη μετάφραση. Αυτή η προσέγγιση αντικατοπτρίζει τη συνέπεια και την αξιοπιστία κάθε μοντέλου μηχανικής μετάφρασης στη μετάφραση επαγγελματικού περιεχομένου.

Αποτελέσματα

Τα παρακάτω γραφήματα απεικονίζουν την απόδοση των τεσσάρων μηχανών μετάφρασης στους τρεις τομείς. Η Lara επέδειξε υψηλότερη ακρίβεια με βαθμολογία 65%, ενώ άλλα μοντέλα, όπως το Google Translate, το DeepL και το GPT-4, είχαν βαθμολογίες που κυμαίνονταν από 54% έως 58%. Αυτά τα αποτελέσματα αποδεικνύουν τη σταθερά ανώτερη απόδοση της Lara σε όλους τους τομείς.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEΠοιότητα* (%)50%40%70%60%80%90%ΟικονομικάΤεχνολογίαΤουρισμόςΓενικά
EN → ESΠοιότητα* (%)60%40%100%80%ΟικονομικάΤεχνολογίαΤουρισμόςΓενικά
EN → FRΠοιότητα* (%)40%30%60%50%70%80%ΟικονομικάΤεχνολογίαΤουρισμόςΓενικά
EN → ITΠοιότητα* (%)40%20%100%80%60%ΟικονομικάΤεχνολογίαΤουρισμόςΓενικά
EN → JAΠοιότητα* (%)50%30%90%70%ΟικονομικάΤεχνολογίαΤουρισμόςΓενικά
EN → KOΠοιότητα* (%)40%20%80%60%ΟικονομικάΤεχνολογίαΤουρισμόςΓενικά
EN → PTΠοιότητα* (%)40%20%100%80%60%Οι�κονομικάΤεχνολογίαΤουρισμόςΓενικά
EN → RUΠοιότητα* (%)20%0%80%60%40%ΟικονομικάΤεχνολογίαΤουρισμόςΓενικά
EN → ZHΠοιότητα* (%)40%30%60%50%70%80%ΟικονομικάΤεχνολογίαΤουρισμόςΓενικά

* Ποσοστό των περιπτώσεων στις οποίες τουλάχιστον 2 στους 3 επαγγελματίες μεταφραστές συμφώνησαν ότι μια μετάφραση ήταν ακριβής, βάσει 2.700 μεταφράσεων από τα Αγγλικά προς τα Ιταλικά, Γαλλικά, Ισπανικά, Γερμανικά, Πορτογαλικά, Ιαπωνικά, Κινεζικά, Ρωσικά και Κορεατικά.

Αξιολόγηση της ακρίβειας της Lara σε σύγκριση με επαγγελματίες μεταφραστές

Η πρόοδός μας προς τη γλωσσική ενότηταΙανουάριος 2024Ιανουάριος 2025Language SingularityΤυπικό σύστημα μηχανικής μετάφρασηςLara Grande012610842LaraΟ μέσος επαγγελματίας μεταφραστήςΚορυφαίο 1% των επαγγελματιών μεταφραστώνΣφάλμα�τα ανά 1.000 λέξεις *

* Ποσοστό των περιπτώσεων στις οποίες τουλάχιστον 2 στους 3 επαγγελματίες μεταφραστές συμφώνησαν ότι μια μετάφραση ήταν ακριβής, βάσει 2.700 μεταφράσεων από τα Αγγλικά προς τα Ιταλικά, Γαλλικά, Ισπανικά, Γερμανικά, Πορτογαλικά, Ιαπωνικά, Κινεζικά, Ρωσικά και Κορεατικά.

Παρακολουθούμε την πρόοδο της Lara μέσω τακτικών βαθμολογήσεων από ανθρώπους. Μία από τις κύριες μετρήσεις που χρησιμοποιούμε είναι τα σφάλματα ανά χίλιες λέξεις (EPT ή EPTW). Αυτή η μέτρηση μας βοηθά να αξιολογήσουμε την ακρίβεια της μετάφρασης υπολογίζοντας τον αριθμό των σφαλμάτων ανά χίλιες λέξεις μεταφρασμένου περιεχομένου. Χρησιμοποιώντας το EPT, μπορούμε να μετρήσουμε αντικειμενικά την απόδοση της Lara και να εντοπίσουμε τομείς που επιδέχονται βελτίωση.

Ρύθμιση αξιολόγησης

Σε αυτήν την αξιολόγηση, επικεντρωθήκαμε σε περιεχόμενο που δημιουργείται από χρήστες, συμπεριλαμβανομένων συνομιλιών, κριτικών και περιγραφών προϊόντων. Μεταφράσαμε το περιεχόμενο χρησιμοποιώντας τη Lara και ζητήσαμε επίσης από επαγγελματίες μεταφραστές, επιλεγμένους από το μέσο επίπεδο και το κορυφαίο 1% του δικτύου μας, να μεταφράσουν το ίδιο περιεχόμενο χωρίς τη χρήση οποιουδήποτε συστήματος μηχανικής μετάφρασης. Στη συνέχεια, όλες οι μεταφράσεις ελέγχθηκαν από επαγγελματίες μεταφραστές που επιλέχθηκαν ειδικά για τη διαδικασία αξιολόγησης, με σκοπό την επισήμανση των μεταφραστικών σφαλμάτων.

Διαδικασία αξιολόγησης

Επιλογή περιεχομένου

Επιλέξαμε ένα ευρύ φάσμα υλικού που δημιουργήθηκε από χρήστες, όπως αποσπάσματα συνομιλιών, αξιολογήσεις πελατών και λεπτομερείς περιγραφές προϊόντων, προκειμένου να αξιολογήσουμε συνολικά την απόδοση της μετάφρασης σε διαφορετικούς τύπους περιεχομένου.

Μετάφραση

Το επιλεγμένο περιεχόμενο μεταφράστηκε πρώτα χρησιμοποιώντας τη Lara. Παράλληλα, αναθέσαμε σε επαγγελματίες μεταφραστές από το δίκτυό μας να μεταφράσουν το ίδιο σύνολο περιεχομένου χωρίς τη βοήθεια εργαλείων μηχανικής μετάφρασης. Αυτοί οι μεταφραστές επιλέχθηκαν προσεκτικά από τους μέσους μεταφραστές αλλά και από το κορυφαίο 1% των επαγγελματιών, ώστε να εξασφαλιστεί μια ευρεία αντιπροσώπευση της ποιότητας της ανθρώπινης μετάφρασης.

Ανίχνευση σφαλμάτων

Ανεξάρτητα από τη μέθοδο που χρησιμοποιήθηκε, όλες οι μεταφράσεις υποβλήθηκαν σε αυστηρή διαδικασία ελέγχου, η οποία διεξήχθη από ξεχωριστή ομάδα επαγγελματιών μεταφραστών. Οι αξιολογητές αυτοί επιλέχθηκαν ειδικά βάσει της εξειδίκευσής τους και ανέλαβαν να επισημάνουν μεταφραστικά σφάλματα χωρίς να γνωρίζουν την πηγή των μεταφράσεων. Τα σφάλματα αυτά περιλάμβαναν ζητήματα όπως γραμματικά λάθη, λανθασμένες αποδόσεις και παραλείψεις. Αυτό το βήμα εφαρμόστηκε με συνέπεια σε όλες τις μεταφράσεις της Lara και τις επαγγελματικές μεταφράσεις.

Υπολογισμός EPT

Η βαθμολογία EPT προέκυψε ως μέσος όρος από τα αποτελέσματα πολλαπλών μεταφράσεων. Αυτή η βαθμολογία αντιπροσωπεύει τη συχνότητα των σφαλμάτων και μας επιτρέπει να παρακολουθούμε τις βελτιώσεις στην απόδοση της Lara.

Αξιολόγηση της επόμενης έκδοσης της Lara

Εφαρμόσαμε την ίδια διαδικασία αξιολόγησης EPT στο alpha μοντέλο της επόμενης προγραμματισμένης έκδοσης του Lara, η οποία αναμένεται το 2025. Αυτό μας επέτρεψε να μετρήσουμε τις πρώιμες βελτιώσεις της νέας έκδοσης και να συγκρίνουμε την απόδοσή της με εκείνη της τρέχουσας. Η παρακολούθηση αυτής της προόδου μας δίνει πολύτιμες πληροφορίες για το πώς η Lara προχωρά προς την υψηλότερη ακρίβεια της μετάφρασης.

Αποτελέσματα

Τα αποτελέσματα του EPT δείχνουν τη σταθερή βελτίωση της Lara στη μείωση των μεταφραστικών σφαλμάτων σε πολλούς τομείς. Τα αποτελέσματα αντικατοπτρίζουν σαφώς την πρόοδο της Lara προς τη γλωσσική ενότητα.

Η γλώσσα ήταν ο πιο σημαντικός παράγοντας στην ανθρώπινη εξέλιξη. Μέσω της γλώσσας, μπορούμε να κατανοούμε ο ένας τον άλλον και να συνεργαζόμαστε για να φτιάξουμε ένα καλύτερο μέλλον. Η σύνθετη γλώσσα μάς επέτρεψε να εξελιχθούμε ταχύτερα από οποιοδήποτε άλλο είδος.

Δίνοντας σε όλους τη δυνατότητα να καταλαβαίνουν και να εκφράζονται στη μητρική τους γλώσσα, ξεκλειδώνουμε το επόμενο στάδιο της ανθρώπινης εξέλιξης. Πιστεύουμε στους ανθρώπους.