En omfattende vurdering av Laras oversettelseskapasitet

For å evaluere Laras prestasjon oversatte vi 300 setninger fra engelsk til de vanligste lokaliseringsspråkene, med Lara og med ulike MT-systemer. Vi ba deretter profesjonelle oversettere om å vurdere nøyaktigheten av alle oversettelsene. I tillegg ba vi profesjonelle oversettere flagge feil i Laras oversettelser, og i oversettelsene utført av kollegene deres – spesielt de på mediannivå og de som tilhører de beste 1 % av vårt nettverk av profesjonelle oversettere.

Vurdering av Laras nøyaktighet mot andre MT-systemer

Profesjonelle oversettere foretrekker LaraKvalitet* (%)40%30%60%50%70%80%ØkonomiTeknologiTurismeGenereltLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* Prosentvis antall ganger at minst to av tre profesjonelle oversettere var enige om at en oversettelse var nøyaktig i 2 700 oversettelser fra engelsk til italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk.

Vi laget denne evalueringen for å sammenligne prestasjonene til ulike maskinoversettelsesprogram ved å la dem oversette business-relatert innhold fra den virkelige verden. Testsettet utgjorde totalt 2 700 setninger, som besto av 300 engelske kildesetninger oversatt av maskinoversettelsessystemer til ni av de mest forespurte lokaliseringsspråkene: italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk. Nøyaktigheten av disse maskingenererte oversettelsene ble omhyggelig vurdert av profesjonelle oversettere som var håndplukket for gjennomgangsprosessen. For å sikre objektivitet og eliminere skjevheter, brukte vi en dobbeltblind metode: Korrekturleserne var ikke klar over hvilken maskinoversettelsesprogram som produserte hver oversettelse, og de ble ikke informert om andre korrekturleseres evalueringer. Denne tilnærmingen gjorde det mulig å utføre en objektiv og rettferdig vurdering av hvert systems ytelse.

Evalueringsoppsett

Vi valgte 300 setninger fra reelle aktive oversettelsesprosjekter innen turisme, finans og teknologi. Evalueringen fokuserte på å måle nøyaktigheten av følgende maskinoversettelsesmodeller:

  • Lara
  • Google Translate
  • DeepL
  • OpenAIs GPT-4o (ved hjelp av en femskudds læringsmetode, som innebærer å gi fem eksempeloversettelser i ledeteksten for å veilede og forbedre modellens oversettelsesprestasjon)

Evalueringsprosessen

Valg av profesjonelle oversettere

For å vurdere oversettelseskvaliteten valgte vi profesjonelle oversettere med de beste resultatene fra et nettverk på 500 000 ved hjelp av T-Rank – et KI-drevet rangeringssystem utviklet av Translated. T-Rank hjelper med å velge toppytende, domenekvalifiserte profesjonelle oversettere ved å evaluere deres tidligere ytelse og kompetanse på tvers av mer enn 30 kriterier. Dette sørget for at oversetterne som ble valgt ut for evaluering, var høyt kvalifiserte oversettere med målspråket som morsmål.

Menneskelig evaluering

Tre profesjonelle morsmålsoversettere ble uavhengig gitt i oppgave å gjennomgå alle oversatt setninger for hvert målspråk. For å sikre en objektiv vurdering, visste oversetterne ikke hvilken modell som produserte oversettelsene.

Flertallets avgjørelse

Hvis minst to av tre oversettere var enige om at en oversettelsen var egnet for profesjonell bruk, fikk modellen ett poeng for den setningen. Denne metoden reduserte subjektiviteten og la vekt på konsensus.

Scoringsmetodikk

Den endelige poengsummen for hvert program representerer prosentandelen av tilfellene der et flertall av vurdererne godkjente oversettelsen. Denne tilnærmingen gjenspeiler konsistensen og påliteligheten til hver MT-modell i oversettelsen av profesjonelt innhold.

Resultater

Diagrammene nedenfor visualiserer ytelsen til de fire MT-programmene i de tre domenene. Lara demonstrerte høyest grad av nøyaktighet med en score på 65 %, mens andre modeller, inkludert Google Translate, DeepL og GPT-4, oppnådde mellom 54 og 58 %. Disse resultatene demonstrerer Laras konsekvent overlegne prestasjon på tvers av domener.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEKvalitet* (%)50%40%70%60%80%90%ØkonomiTeknologiTurismeGenerelt
EN → ESKvalitet* (%)60%40%100%80%ØkonomiTeknologiTurismeGenerelt
EN → FRKvalitet* (%)40%30%60%50%70%80%ØkonomiTeknologiTurismeGenerelt
EN → ITKvalitet* (%)40%20%100%80%60%ØkonomiTeknologiTurismeGenerelt
EN → JAKvalitet* (%)50%30%90%70%ØkonomiTeknologiTurismeGenerelt
EN → KOKvalitet* (%)40%20%80%60%ØkonomiTeknologiTurismeGenerelt
EN → PTKvalitet* (%)40%20%100%80%60%ØkonomiTeknologiTurismeGenerelt
EN → RUKvalitet* (%)20%0%80%60%40%ØkonomiTeknologiTurismeGenerelt
EN → ZHKvalitet* (%)40%30%60%50%70%80%ØkonomiTeknologiTurismeGenerelt

* Prosentvis antall ganger at minst to av tre profesjonelle oversettere var enige om at en oversettelse var nøyaktig i 2 700 oversettelser fra engelsk til italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk.

Evaluering av Laras nøyaktighet sammenlignet med profesjonelle oversettere

Vår fremgang mot språksingularitetJanuar 2024Januar 2025Language SingularityTypisk maskinoversettelsessystemLara Grande012610842LaraMedian av professjonelle oversettereDe beste 1 % av profesjonelle oversettereFeil per 1 000 ord*

* Prosentvis antall ganger at minst to av tre profesjonelle oversettere var enige om at en oversettelse var nøyaktig i 2 700 oversettelser fra engelsk til italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk.

Vi sporer Laras fremgang gjennom regelmessig menneskelig scoring. En av de primære beregningene vi bruker er feil per 1 000 ord (EPT eller EPTW). Denne beregningen hjelper oss med å vurdere nøyaktigheten av oversettelse ved å beregne antall feil per 1 000 ord oversatt innhold. Ved hjelp av EPT kan vi objektivt måle Laras prestasjoner og identifisere områder som må forbedres.

Evalueringsoppsett

I denne evalueringen fokuserte vi på brukergenerert innhold, inkludert chatter, omtaler og produktbeskrivelser. Vi brukte Lara og profesjonelle oversettere valgt fra median- og de beste 1 %-gruppen i nettverket vårt, til å oversette det samme innholdet, uten å bruke maskinoversettelse. Alle oversettelser ble deretter gjennomgått av profesjonelle oversettere som var håndplukket for gjennomgangsprosessen, for på den måten å fremheve feilene i oversettelsene.

Evalueringsprosessen

Utvalg av innhold

Vi gjorde et variert utvalg av brukergenerert materiale, inkludert chat-transkripsjoner, kundeanmeldelser og detaljerte produktbeskrivelser, for å vurdere oversettelsesytelsen på tvers av ulike innholdstyper.

Oversettelse

Det valgte innholdet ble først oversatt ved hjelp av Lara. Parallelt engasjerte vi profesjonelle oversettere fra nettverket vårt til å oversette samme innholdssett, uten hjelp fra maskinoversettelsesverktøy. Disse oversetterne ble nøye valgt fra median- og de beste 1 %-gruppen for å sikre en bred representasjon av menneskelig oversettelseskvalitet.

Identifisering av feil

Uansett hvilken metode som ble brukt, ble alle oversettelsene grundig gjennomgått av et eget team av profesjonelle oversettere. Disse korrekturleserne ble spesielt utvalgt på grunnlag av sin ekspertise, og fikk i oppgave å fremheve oversettelsesfeil uten å vite kilden til oversettelsene. Feilene inkluderte problemer som grammatiske feil, feiloversettelser og utelatelser. Dette trinnet ble brukt konsekvent for både Lara og de profesjonelle oversettelsene.

EPT-beregning

Gjennomsnittet av EPT-scoren ble beregnet ved å kombinere resultatene på tvers av flere oversettelser. Resultatet representerer feilfrekvensen og gjør det mulig for oss overvåke forbedringer i Laras prestasjoner.

Vurdering av neste versjon av Lara

Vi brukte den samme EPT-evalueringsprosessen til alfamodellen til Laras neste planlagte modell, som forventes i 2025. Dette hjalp oss å måle de tidlige forbedringene i den nye versjonen og sammenligne prestasjonen med den nåværende iterasjonen. Sporing av denne fremgangen gir oss verdifull innsikt i hvordan Lara forbedrer nøyaktigheten av oversettelsene den utfører.

Resultater

EPT-resultatene viser Laras stadige forbedring, gitt reduksjonen i antall feil på tvers av flere domener. Resultatene gjenspeiler tydelig Laras fremgang mot språksingularitet.

Språk har vært den viktigste faktoren i menneskelig evolusjon. Gjennom språk kan vi forstå hverandre og jobbe sammen for å bygge en bedre fremtid. Komplekst språk har gjort det mulig for oss å avansere raskere enn noen annen art.

Ved å gjøre det mulig for alle å forstå og bli forstått på sitt eget morsmål, låser vi opp den neste fasen i menneskelig evolusjon. Vi tror på mennesker.