Une évaluation exhaustive des capacités de traduction de Lara
Pour évaluer les performances de Lara, nous avons traduit 300 phrases de l’anglais vers les langues les plus couramment demandées pour la localisation en utilisant Lara et divers systèmes de TA. Nous avons ensuite demandé à des traducteurs professionnels d’évaluer l’exactitude de chaque traduction. Nous leur avons également demandé de signaler les erreurs dans les traductions de Lara, ainsi que dans les traductions effectuées par leurs collègues, en particulier celles du niveau médian et du 1 % supérieur de notre réseau de traducteurs professionnels.
Évaluation de la précision de Lara par rapport à d’autres systèmes de TA
* Percentuale di volte in cui almeno 2 traduttori professionisti su 3 erano d’accordo sul fatto che una traduzione fosse accurata in 2.700 traduzioni dall’inglese all’italiano, francese, spagnolo, tedesco, portoghese, giapponese, cinese, russo e coreano.
Nous avons structuré cette évaluation de manière à comparer la performance de divers moteurs de traduction automatique en utilisant un contenu de niveau entreprise tiré de la vie réelle. Notre ensemble de tests comprenait 2 700 phrases composées de 300 phrases sources en anglais traduites par des systèmes de traduction automatique dans neuf des langues les plus demandées pour la localisation : l’italien, le français, l’espagnol, l’allemand, le portugais, le japonais, le chinois, le russe et le coréen. L’exactitude de ces traductions générées par machine a été minutieusement évaluée par des traducteurs professionnels soigneusement sélectionnés pour le processus de révision. Afin de garantir l’objectivité et d’éviter les préjugés, nous avons utilisé une méthode en double aveugle : les réviseurs ne savaient pas quel moteur de traduction automatique produisait chaque traduction et ils n’étaient pas informés des évaluations des autres réviseurs. Cette approche a permis une évaluation impartiale et équitable des performances de chaque système.
Configuration de l’évaluation
Nous avons sélectionné 300 phrases du monde réel à partir de projets de traduction en cours dans trois secteurs : le tourisme, la finance et la technologie. L’évaluation s’est concentrée sur la détermination de la précision des modèles de traduction automatique suivants :
- Lara
- Google Traduction
- DeepL
- GPT-4o d’OpenAI (en utilisant une approche d’apprentissage en 5 étapes, qui consiste à fournir cinq exemples de traductions dans l’invite pour guider et améliorer les performances de traduction du modèle)
Processus d’évaluation
Sélection de traducteurs professionnels
Pour évaluer la qualité des traductions, nous avons sélectionné des traducteurs professionnels les plus performants parmi un réseau de 500 000 traducteurs en utilisant T-Rank, un système de classement basé sur l’IA développé par Translated. T-Rank aide à sélectionner les traducteurs professionnels les plus performants et les plus qualifiés en évaluant leurs performances passées et leur expertise sur plus de 30 critères. Cela garantissait que les traducteurs sélectionnés pour l’évaluation étaient des locuteurs natifs hautement qualifiés des langues cibles.
Évaluation humaine
Trois traducteurs professionnels natifs ont été affectés indépendamment pour examiner chaque phrase traduite pour chaque langue cible. Les traducteurs ne savaient pas par quel modèle les traductions avaient été produites, ce qui garantissait une évaluation impartiale.
Accord à la majorité
Si au moins deux traducteurs sur trois ont convenu qu’une phrase traduite était adaptée à un usage professionnel, le modèle a reçu un point pour cette phrase. Cette méthode réduisait la subjectivité et mettait l’accent sur le consensus.
Méthodologie de notation
La note finale pour chaque moteur représente le pourcentage de cas où la plupart des évaluateurs ont approuvé la traduction. Cette approche reflète la cohérence et la fiabilité de chaque modèle de TA lors de la traduction de contenu professionnel.
Résultats
Les graphiques ci-dessous visualisent les performances des quatre moteurs de TA étudiés dans les trois domaines. Lara a démontré une précision plus élevée avec un score de 65 %, tandis que les autres modèles, notamment Google Traduction, DeepL et GPT-4, avaient des scores allant de 54 % à 58 %. Ces résultats mettent en évidence les performances constamment supérieures de Lara dans tous les domaines.
* Percentuale di volte in cui almeno 2 traduttori professionisti su 3 erano d’accordo sul fatto che una traduzione fosse accurata in 2.700 traduzioni dall’inglese all’italiano, francese, spagnolo, tedesco, portoghese, giapponese, cinese, russo e coreano.
Évaluation de la précision de Lara par rapport à des traducteurs professionnels
* Percentuale di volte in cui almeno 2 traduttori professionisti su 3 erano d’accordo sul fatto che una traduzione fosse accurata in 2.700 traduzioni dall’inglese all’italiano, francese, spagnolo, tedesco, portoghese, giapponese, cinese, russo e coreano.
Nous suivons les progrès de Lara au moyen d’une notation humaine effectuée de manière systématique. Le nombre d’erreurs par millier de mots (EPT ou EPTW) est l’une des principales mesures utilisées. Cette mesure nous aide à évaluer la précision de la traduction en calculant le nombre d’erreurs par millier de mots de contenu traduit. En utilisant l’EPT, nous pouvons mesurer de manière objective les performances de Lara et identifier les domaines à améliorer.
Configuration de l’évaluation
Dans cette évaluation, nous nous sommes concentrés sur le contenu généré par l’utilisateur, y compris les chats, les avis et les descriptions de produits. Nous avons traduit le contenu en utilisant Lara et avons également fait appel à des traducteurs professionnels sélectionnés dans le centile médian et le centile supérieur de notre réseau pour traduire le même contenu sans utiliser de traduction automatique. Toutes les traductions ont ensuite été examinées par des traducteurs professionnels spécifiquement choisis pour le processus d’examen afin de mettre en évidence les erreurs de traduction.
Processus d’évaluation
Sélection du contenu
Afin d’évaluer de manière exhaustive les performances de traduction de différents types de contenu, nous avons sélectionné un large éventail de documents générés par les utilisateurs, notamment des transcriptions de chat, des avis clients et des descriptions détaillées de produits.
Traduction
Le contenu sélectionné a d’abord été traduit en utilisant Lara. En parallèle, nous avons fait appel à des traducteurs professionnels faisant partie de notre réseau pour traduire le même ensemble de contenu sans l’aide d’outils de traduction automatique. Ces traducteurs ont été soigneusement choisis parmi les interprètes médians et le centile supérieur afin d’assurer une large représentation de la qualité de la traduction humaine.
Détection d’erreurs
Quelle que soit la méthode utilisée, toutes les traductions ont fait l’objet d’un processus d’examen rigoureux mené par une équipe distincte de traducteurs professionnels. Ces réviseurs, spécifiquement sélectionnés sur la base de leur expertise, ont été chargés de mettre en évidence les erreurs de traduction, sans connaître la provenance des traductions. Parmi ces erreurs figurent des problèmes tels que des fautes de grammaire, des erreurs de traduction et des omissions. Cette étape a été appliquée de manière cohérente aussi bien aux traductions de Lara qu’à celles des traducteurs professionnelles.
Calcul du score EPT
Le score EPT a été calculé en combinant les résultats de plusieurs traductions. Ce score, qui représente la fréquence des erreurs, nous permet de suivre l’amélioration des performances de Lara.
Évaluation de la prochaine version de Lara
Nous avons appliqué le même processus d’évaluation EPT au modèle alpha du prochain modèle planifié de Lara, prévu en 2025. Cela nous a permis de mesurer les premières améliorations de la nouvelle version et de comparer ses performances avec l’itération actuelle. Le suivi de ces progrès nous donne un aperçu précieux de la façon dont Lara progresse vers une plus grande précision de traduction.
Résultats
Les résultats de l’EPT montrent l’amélioration constante de Lara en matière de réduction des erreurs de traduction dans plusieurs domaines. Les résultats reflètent clairement les progrès de Lara vers la singularité propre au langage humain.
Le langage est l'un des facteurs ayant joué un des rôles les plus importants pour l'évolution de l'humanité. C'est grâce au langage que nous pouvons nous comprendre les uns les autres et travailler ensemble à construire un avenir meilleur. C'est ce langage complexe qui nous a permis d'avancer plus vite que n'importe quelle autre espèce.
En permettant à chacun de comprendre et de se faire comprendre dans sa langue maternelle, nous avançons vers la prochaine étape de l'évolution humaine. Nous croyons en l’être humain.