Una avaluació exhaustiva de les capacitats de traducció de Lara
Per avaluar el rendiment de Lara, vam traduir 300 frases de l'anglès als idiomes més sol·licitats en localització mitjançant Lara i diversos sistemes de TA. Després vam demanar a traductors professionals que valoressin la qualitat de cada traducció. També vam demanar-los que detectessin els errors en les traduccions de Lara i les d'altres traductors, incloent-hi els de nivell mitjà i els del percentil més alt de la nostra xarxa de traductors professionals.
Avaluació de la precisió de Lara en comparació amb altres sistemes de traducció automàtica
* Percentatge de casos en què com a mínim 2 de cada 3 traductors professionals van considerar que una traducció era encertada, en un conjunt de 2700 traduccions de l'anglès a l'italià, el francès, l'espanyol, l'alemany, el portuguès, el japonès, el xinès, el rus i el coreà.
Hem dissenyat aquesta avaluació per comparar el rendiment de diversos motors de traducció automàtica fent servir contingut real d'àmbit empresarial. Vam fer servir un conjunt de prova de 2700 oracions: 300 frases originals en anglès traduïdes automàticament a nou dels idiomes més habituals en localització: italià, francès, espanyol, alemany, portuguès, japonès, xinès, rus i coreà. La precisió d'aquestes traduccions automàtiques va ser minuciosament avaluada per traductors professionals especialment seleccionats per al procés de revisió. Amb l'objectiu de garantir una avaluació imparcial, vam aplicar un mètode de doble cec: els revisors no sabien quin motor de traducció automàtica havia generat cada traducció ni tenien accés a les avaluacions dels altres revisors. Aquest mètode va permetre una avaluació imparcial i justa del rendiment de cada sistema.
Preparació de l'avaluació
Vam seleccionar 300 frases reals de projectes de traducció en curs en tres sectors: turisme, finances i tecnologia. L'objectiu de l'anàlisi era valorar la precisió dels models de traducció automàtica següents:
- Lara
- Google Translate
- DeepL
- GPT-4o d'OpenAI (amb una tècnica d'aprenentatge de 5 mostres, que consisteix a sol·licitar cinc exemples de traduccions per guiar i optimitzar la traducció del model)
Procés d'avaluació
Selecció de traductors professionals
Per avaluar la qualitat de la traducció, vam seleccionar els millors traductors professionals d'una xarxa de 500 000 gràcies a T-Rank, un sistema de classificació basat en IA desenvolupat per Translated. T-Rank ajuda a seleccionar els millors traductors professionals segons l'àmbit avaluant el seu rendiment fins a la data i l'experiència en funció de més de 30 criteris. Això va permetre seleccionar traductors nadius i altament competents en els idiomes de destinació.
Avaluació humana
Tres traductors nadius professionals van revisar cada frase traduïda per a cadascun dels idiomes de destinació. En desconèixer quin model havia generat les traduccions, l'avaluació va ser imparcial.
Acord majoritari
Si, com a mínim, dos dels tres traductors consideraven que la traducció era adequada per a un ús professional, el model rebia un punt per la frase. Aquesta metodologia reduïa la subjectivitat i reforçava la importància del consens.
Metodologia de puntuació
La puntuació final de cada motor representa el percentatge de casos en què la majoria dels avaluadors van aprovar la traducció. Aquest enfocament posa en relleu la coherència i fiabilitat de cada model de TA a l'hora de traduir continguts professionals.
Resultats
Els gràfics següents mostren el rendiment dels quatre motors de TA en els tres àmbits. Lara va demostrar una precisió superior amb una puntuació del 65 %, mentre que la resta de models, com ara Google Translate, DeepL i GPT-4, van obtenir puntuacions d'entre el 54 % i el 58 %. Aquests resultats demostren un rendiment superior de Lara en tots els àmbits.
* Percentatge de casos en què com a mínim 2 de cada 3 traductors professionals van considerar que una traducció era encertada, en un conjunt de 2700 traduccions de l'anglès a l'italià, el francès, l'espanyol, l'alemany, el portuguès, el japonès, el xinès, el rus i el coreà.
Avaluació de la precisió de Lara en comparació amb la dels traductors professionals
* Percentatge de casos en què com a mínim 2 de cada 3 traductors professionals van considerar que una traducció era encertada, en un conjunt de 2700 traduccions de l'anglès a l'italià, el francès, l'espanyol, l'alemany, el portuguès, el japonès, el xinès, el rus i el coreà.
Supervisem l'evolució de Lara amb avaluacions paròdiques d'experts. Una de les principals mètriques que fem servir són els errors per mil paraules (EPT o EPTW). Aquesta mètrica ens ajuda a avaluar la precisió de la traducció calculant el nombre d'errors per cada mil paraules traduïdes. Amb els EPT podem avaluar de manera objectiva el rendiment de Lara i identificar aspectes que cal perfeccionar.
Preparació de l'avaluació
En aquesta avaluació, ens vam centrar en contingut generat pels usuaris, com ara xats, ressenyes i descripcions de productes. El contingut es va traduir amb Lara i, paral·lelament, es va encarregar la mateixa tasca a traductors professionals del percentil mitjà i més alt de la nostra xarxa, sense fer ús de cap sistema de traducció automàtica. Un cop fetes, totes les traduccions van ser avaluades per traductors professionals escollits expressament per identificar-ne els errors.
Procés d'avaluació
Selecció de contingut
Amb l'objectiu d'avaluar la qualitat de la traducció de diversos tipus de continguts, vam seleccionar una àmplia varietat de contingut generat pels usuaris, com ara converses de xat, ressenyes de clients i descripcions de productes.
Traducció
El contingut seleccionat es va traduir inicialment amb Lara. Paral·lelament, es va encarregar la mateixa tasca a traductors professionals de la nostra xarxa, sense fer ús de cap sistema de traducció automàtica. Els traductors escollits provenen tant del segment mitjà com del percentil més alt, amb l'objectiu d'oferir una mostra representativa de la qualitat humana en traducció.
Detecció d'errors
Independentment del mètode emprat, totes les traduccions es van revisar a fons per un equip independent de traductors professionals. Aquests revisors van ser seleccionats específicament per la seva experiència i tenien la tasca d'identificar errors en les traduccions sense conèixer-ne l'origen. Entre els errors hi havia problemes gramaticals, traduccions incorrectes i omissions de contingut. Aquest pas es va aplicar sistemàticament a Lara i a les traduccions professionals.
Càlcul dels EPT
La puntuació dels EPT es va calcular combinant els resultats de diverses traduccions. El resultat indica amb quina freqüència es produeixen errors i ens ajuda a avaluar l'evolució de Lara amb el temps.
Avaluació de la pròxima versió de Lara
Vam aplicar el mateix procés d'avaluació dels EPT al model alfa de la pròxima versió de Lara, prevista per al 2025. Gràcies a això, vam poder avaluar les millores inicials de la versió nova i comparar-les amb les de l'actual. Aquest seguiment ens ajuda a entendre com millora Lara la precisió en les seves traduccions.
Resultats
Els resultats dels EPT mostren com Lara ha anat disminuint els errors de traducció de manera constant en diversos àmbits. És evident, a partir de les dades, que Lara s'acosta a la singularitat lingüística.
El llenguatge ha estat el factor més important en l'evolució humana. Gràcies a ell, podem entendre'ns i col·laborar per fer possible un futur millor. El llenguatge complex ens ha permès avançar més ràpidament que qualsevol altra espècie.
Quan tothom pot entendre i fer-se entendre en el seu idioma, posem en marxa un capítol nou en l'evolució humana. Creiem en les persones