Una evaluación completa de las capacidades de traducción de Lara

Para evaluar el desempeño de Lara, tradujimos 300 frases del inglés a los idiomas más solicitados en la localización utilizando Lara y varios sistemas de TA. Luego, pedimos a traductores profesionales que valoraran la calidad de cada traducción. También les pedimos que señalaran los errores en las traducciones de Lara y en las realizadas por otros traductores, especialmente las de nivel medio y las del 1 % superior de nuestros mejores traductores profesionales.

Evaluación de la precisión de Lara frente a la de otros sistemas de TA

Los traductores profesionales prefieren LaraCalidad* (%)40%30%60%50%70%80%FinanzasTecnologíaTurismoGeneralLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* Porcentaje de ocasiones en las que al menos 2 de cada 3 traductores profesionales coincidieron en que una traducción era precisa, basado en 2700 traducciones del inglés al italiano, francés, español, alemán, portugués, japonés, chino, ruso y coreano.

Diseñamos esta evaluación para comparar el rendimiento de varios motores de traducción automática utilizando contenido del mundo real y empresarial. Nuestro conjunto de pruebas estaba formado por 2700 frases, que incluían 300 frases originales en inglés traducidas por sistemas de traducción automática a nueve de los idiomas de localización más solicitados: italiano, francés, español, alemán, portugués, japonés, chino, ruso y coreano. La precisión de estas traducciones generadas automáticamente fue evaluada de manera meticulosa por traductores profesionales especialmente seleccionados para el proceso de revisión. Para garantizar la objetividad y eliminar los sesgos, empleamos un método de doble ciego: los revisores no sabían qué motor de traducción automática había generado cada traducción ni recibieron información sobre las evaluaciones de otros revisores. Este enfoque permitió evaluar de forma imparcial y justa el rendimiento de cada sistema.

Preparación de la evaluación

Seleccionamos 300 frases reales de proyectos de traducción activos en tres sectores: turismo, finanzas y tecnología. La evaluación se centró en medir la precisión de los siguientes modelos de traducción automática:

  • Lara
  • Google Translate
  • DeepL
  • GPT-4o de OpenAI (con un enfoque de aprendizaje de 5 muestras, que consiste en proporcionar cinco ejemplos de traducciones en la solicitud para guiar y mejorar el rendimiento de la traducción del modelo)

Proceso de evaluación

Selección de traductores profesionales

Para evaluar la calidad de la traducción, seleccionamos traductores profesionales de alto rendimiento de una red de 500 000 gracias a T-Rank, un sistema de clasificación basado en IA desarrollado por Translated. T-Rank permite seleccionar traductores profesionales de alto rendimiento y especializados en distintos ámbitos mediante la evaluación de su desempeño previo y su experiencia en función de más de 30 criterios. Así se garantizó que los traductores seleccionados para la evaluación fueran hablantes nativos altamente cualificados en los idiomas de destino.

Evaluación humana

Tres traductores nativos profesionales revisaron cada frase traducida en cada idioma de destino. Como no sabían qué modelo había generado las traducciones, su evaluación fue imparcial.

Acuerdo mayoritario

Cuando dos de los tres traductores coincidían en que una traducción era adecuada para un uso profesional, el modelo recibía un punto por esa frase. Este método minimizaba la subjetividad y daba prioridad al consenso.

Metodología de puntuación

La puntuación final de cada motor representa el porcentaje de casos en los que la mayoría de los evaluadores aprobó la traducción. Este enfoque refleja la coherencia y la fiabilidad de cada modelo de TA en la traducción de contenidos profesionales.

Resultados

Los siguientes gráficos muestran el rendimiento de los cuatro motores de TA en los tres ámbitos. Lara demostró una mayor precisión con una puntuación del 65 %, mientras que las puntuaciones de otros modelos, como Google Translate, DeepL y GPT-4, oscilaron entre el 54 % y el 58 %. Estos resultados demuestran un rendimiento superior de Lara en todos los ámbitos.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DECalidad* (%)50%40%70%60%80%90%FinanzasTecnologíaTurismoGeneral
EN → ESCalidad* (%)60%40%100%80%FinanzasTecnologíaTurismoGeneral
EN → FRCalidad* (%)40%30%60%50%70%80%FinanzasTecnologíaTurismoGeneral
EN → ITCalidad* (%)40%20%100%80%60%FinanzasTecnologíaTurismoGeneral
EN → JACalidad* (%)50%30%90%70%FinanzasTecnologíaTurismoGeneral
EN → KOCalidad* (%)40%20%80%60%FinanzasTecnologíaTurismoGeneral
EN → PTCalidad* (%)40%20%100%80%60%FinanzasTecnologíaTurismoGeneral
EN → RUCalidad* (%)20%0%80%60%40%FinanzasTecnologíaTurismoGeneral
EN → ZHCalidad* (%)40%30%60%50%70%80%FinanzasTecnologíaTurismoGeneral

* Porcentaje de ocasiones en las que al menos 2 de cada 3 traductores profesionales coincidieron en que una traducción era precisa, basado en 2700 traducciones del inglés al italiano, francés, español, alemán, portugués, japonés, chino, ruso y coreano.

Evaluación de la precisión de Lara en comparación con la de los traductores profesionales

Nuestro progreso hacia la singularidad lingüísticaEnero de 2024Enero de 2025Language SingularitySistema típico de traducción automáticaLara Grande012610842LaraTraductor profesional promedioUn traductor profesional del 1 % de los mejoresErrors per 1,000 Words *

* Porcentaje de ocasiones en las que al menos 2 de cada 3 traductores profesionales coincidieron en que una traducción era precisa, basado en 2700 traducciones del inglés al italiano, francés, español, alemán, portugués, japonés, chino, ruso y coreano.

Seguimos el progreso de Lara mediante evaluaciones humanas periódicas realizadas por expertos. Una de las principales métricas que utilizamos son los errores por cada mil palabras (EPT o EPTW). Esta métrica nos ayuda a evaluar la precisión de la traducción calculando el número de errores por cada mil palabras de contenido traducido. Con los EPT, podemos medir objetivamente el rendimiento de Lara e identificar áreas de mejora.

Preparación de la evaluación

En esta evaluación, nos centramos en el contenido generado por el usuario, como los chats, las reseñas y las descripciones de productos. Tradujimos el contenido con Lara y también contamos con traductores profesionales de nivel medio y del 1 % superior de nuestra red para traducir el mismo contenido sin utilizar traducción automática. Todas las traducciones fueron revisadas posteriormente por traductores profesionales elegidos específicamente para el proceso de revisión con el fin de señalar los errores de traducción.

Proceso de evaluación

Selección de contenido

Seleccionamos una amplia gama de materiales generados por el usuario, como transcripciones de chats, reseñas de clientes y descripciones detalladas de productos, para evaluar exhaustivamente el rendimiento de la traducción de diferentes tipos de contenido.

Traducción

El contenido seleccionado se tradujo inicialmente con Lara. Simultáneamente, contamos con traductores profesionales de nuestra red para traducir el mismo conjunto de contenidos sin ayuda de herramientas de traducción automática. Estos traductores fueron seleccionados cuidadosamente entre los de rendimiento medio y el 1 % superior para asegurar una representación amplia de la calidad de la traducción humana.

Detección de errores

Independientemente del método utilizado, todas las traducciones se sometieron a un riguroso proceso de revisión realizado por un equipo independiente de traductores profesionales. Estos revisores fueron seleccionados específicamente por su experiencia y se les encargó señalar errores de traducción sin conocer el origen de las traducciones. Estos errores incluían fallos gramaticales, problemas de traducción y omisiones. Este paso se aplicó de manera consistente en Lara y en las traducciones profesionales.

Cálculo de los EPT

La puntuación de los EPT se calculó combinando los resultados de varias traducciones. Esta puntuación refleja la frecuencia de los errores y nos permite monitorizar las mejoras en el rendimiento de Lara.

Evaluación de la próxima versión de Lara

Aplicamos el mismo proceso de evaluación EPT al modelo alfa de la próxima versión de Lara, prevista para 2025. Esto nos permitió medir las primeras mejoras de la nueva versión y comparar su rendimiento con la iteración actual. Controlar este progreso nos ofrece información valiosa sobre cómo Lara avanza hacia una mayor precisión en sus traducciones.

Resultados

Los resultados de los EPT muestran la mejora constante de Lara al reducir los errores de traducción en varios ámbitos. Los resultados reflejan claramente el progreso de Lara hacia la singularidad lingüística.

El lenguaje ha sido el factor más importante en la evolución humana. El lenguaje nos permite entendernos y colaborar para construir un futuro mejor. El lenguaje complejo nos ha permitido avanzar más rápido que cualquier otra especie.

Al hacer posible que todo el mundo entienda y se haga entender en su propio idioma, damos pie a la siguiente etapa de la evolución humana. We believe in humans.