En omfattende vurdering af Laras oversættelsesevner
For at evaluere Laras præstation oversatte vi 300 sætninger fra engelsk til de mest almindeligt krævede sprog i lokalisering ved hjælp af Lara og forskellige MT-systemer. Vi bad derefter professionelle oversættere om at vurdere nøjagtigheden af hver oversættelse. Derudover anmodede vi professionelle oversættere om at indberette fejl i Laras oversættelser samt i oversættelser udført af deres kolleger – specifikt dem på middelniveau og de bedste 1 % af vores netværk af professionelle oversættere.
Vurdering af Laras nøjagtighed i forhold til andre MT-systemer
*Procentdel af tilfælde, hvor mindst 2 ud af 3 professionelle oversættere var af den opfattelse, at en oversættelse var korrekt. Det drejer sig om 2.700 oversættelser fra engelsk til italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk.
Vi har udtænkt denne evaluering for at sammenligne kvaliteten af forskellige maskinoversættelsesmotorer ved hjælp af indhold fra den virkelige verden på virksomhedsniveau. Vores testsæt bestod af 2.700 sætninger, der bestod af 300 engelske kildesætninger oversat af maskinoversættelsessystemer til ni af de mest efterspurgte lokaliseringssprog: italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk. Nøjagtigheden af disse maskingenererede oversættelser blev omhyggeligt vurderet af professionelle oversættere, der var nøje udvalgt til gennemgangsprocessen. For at sikre objektivitet og eliminere bias anvendte vi en dobbelt-blind-metode: Korrekturlæserne var ikke klar over, hvilken maskinoversættelsesmotor der producerede hver oversættelse, og de blev ikke informeret om andre korrekturlæseres evalueringer. Denne tilgang muliggjorde en upartisk og retfærdig vurdering af hvert systems ydeevne.
Planlægning af evalueringen
Vi har udvalgt 300 sætninger fra den virkelige verden fra aktive oversættelsesprojekter på tværs af tre brancher: turisme, økonomi og teknologi. Evalueringen fokuserede på at måle nøjagtigheden af følgende maskinoversættelsesmodeller:
- Lara
- Google Oversæt
- DeepL
- OpenAI's GPT-4o (ved brug af en 5-shot learning-tilgang, som involverer at levere fem eksempeloversættelser i prompten for at guide og forbedre modellens oversættelseskvalitet)
Evalueringsprocessen
Udvælgelse af professionelle oversættere
For at vurdere oversættelseskvaliteten valgte vi højtydende professionelle oversættere fra et netværk på 500.000 ved hjælp af T-Rank, der er et AI-drevet rankingsystem udviklet af Translated. T-Rank hjælper med at vælge højtydende, domænekvalificerede professionelle oversættere ved at evaluere deres tidligere præstationer og ekspertise på tværs af mere end 30 kriterier. Dette sikrede, at de oversættere, der blev udvalgt til evaluering, var højt kvalificerede modersmålstalere af målsprogene.
Menneskelig evaluering
Tre professionelle modersmålsoversættere blev uafhængigt udpeget til at gennemgå hver enkelt oversat sætning for hvert målsprog. Oversætterne vidste ikke, hvilken model der producerede oversættelserne, hvilket sikrede en upartisk evaluering.
Flertalet bestemmer
Hvis mindst to af tre oversættere var enige om, at en oversættelse var egnet til professionel brug, fik modellen et point for den pågældende sætning. Denne metode reducerede subjektiviteten og lagde vægt på konsensus.
Metode til udregning af scoren
Den endelige score for hver motor repræsenterer procentdelen af tilfælde, hvor de fleste bedømmere godkendte oversættelsen. Denne tilgang afspejler konsekvensen og pålideligheden hos hver MT-model ved oversættelse af professionelt indhold.
Resultater
Diagrammerne nedenfor visualiserer de fire MT-motorers præstation inden for de tre domæner. Lara demonstrerede højere nøjagtighed med en score på 65 %, mens andre modeller, herunder Google oversæt, DeepL og GPT-4, havde scorer fra 54 % til 58 %. Disse resultater viser Laras konsekvent overlegne præstation på tværs af domæner.
*Procentdel af tilfælde, hvor mindst 2 ud af 3 professionelle oversættere var af den opfattelse, at en oversættelse var korrekt. Det drejer sig om 2.700 oversættelser fra engelsk til italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk.
Evaluering af Laras nøjagtighed i sammenligning med professionelle oversættere
*Procentdel af tilfælde, hvor mindst 2 ud af 3 professionelle oversættere var af den opfattelse, at en oversættelse var korrekt. Det drejer sig om 2.700 oversættelser fra engelsk til italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk.
Vi følger Laras udvikling gennem regelmæssig menneskelig udregning af scoren. En af de primære målinger, vi bruger, er fejl per tusind ord (EPT eller EPTW). Denne måling hjælper os med at vurdere oversættelsens nøjagtighed ved at beregne antallet af fejl per tusind ord oversat indhold. Ved hjælp af EPT kan vi objektivt måle Laras præstation og identificere områder, der kan forbedres.
Planlægning af evalueringen
I denne evaluering fokuserede vi på brugergenereret indhold, herunder chats, anmeldelser og produktbeskrivelser. Vi oversatte indholdet ved hjælp af Lara og hyrede også professionelle oversættere valgt fra medianen og den 1. percentil i vores netværk til at oversætte det samme indhold uden at bruge nogen maskinoversættelse. Alle oversættelser blev efterfølgende gennemgået af professionelle oversættere, der var specielt udvalgt til korrekturlæsningsprocessen for at fremhæve oversættelsesfejlene.
Evalueringsprocessen
Valg af indhold
Vi har udvalgt en bred vifte af brugergenererede materialer, herunder chatudskrifter, kundeanmeldelser og detaljerede produktbeskrivelser, for at foretage en omfattende vurdering af oversættelsesydelsen på tværs af forskellige indholdstyper.
Oversættelse
Det valgte indhold blev først oversat ved hjælp af Lara. Parallelt engagerede vi professionelle oversættere fra vores netværk til at oversætte det samme sæt indhold uden hjælp fra nogen maskinoversættelsesværktøjer. Disse oversættere blev omhyggeligt udvalgt blandt medianen og den 1. percentil for at sikre en bred repræsentation af menneskelig oversættelseskvalitet.
Fejldetektering
Alle oversættelser, uanset den anvendte metode, gennemgik alle oversættelser en streng korrekturlæsningsproces, der blev udført af et separat team af professionelle oversættere. Disse korrekturlæsere blev specifikt udvalgt på grund af deres ekspertise og fik til opgave at fremhæve oversættelsesfejl uden at kende kilden til oversættelserne. Disse fejl omfattede problemer såsom grammatiske fejl, fejloversættelser og udeladelser. Dette trin blev anvendt konsekvent på tværs af Lara og professionelle oversættelser.
EPT-beregning
Den gennemsnitlige EPT-score blev beregnet ved at kombinere resultaterne på tværs af flere oversættelser. Denne score repræsenterer fejlfrekvensen og giver os mulighed for at overvåge forbedringer i Laras præstation.
Evaluering af den næste version af Lara
Vi anvendte den samme EPT-evalueringsproces på alfamodellen af Laras næste planlagte model, der forventes i 2025. Dette hjalp os med at måle de tidlige forbedringer i den nye version og sammenligne dens præstation med den nuværende iteration. Når vi følger denne udvikling, får vi en værdifuld indsigt i, hvordan Lara bevæger sig mod højere oversættelsesnøjagtighed.
Resultater
EPT-resultaterne viser, at Lara hele tiden bliver bedre med hensyn til at reducere oversættelsesfejl på tværs af flere domæner. Resultaterne afspejler tydeligt Laras udvikling mod sprogsingularitet.
Sprog har været den vigtigste faktor i den menneskelige evolution. Gennem sprog kan vi forstå hinanden og arbejde sammen om at skabe en bedre fremtid. Komplekst sprog har gjort det muligt for os at udvikle hurtigere end nogen anden art.
Ved at gøre det muligt for alle at forstå og blive forstået på deres eget sprog, åbner vi op for det næste skridt i den menneskelige udvikling. Vi tror på mennesker.