En omfattende vurdering av Laras oversettelseskapasitet
For å evaluere Laras prestasjon oversatte vi 300 setninger fra engelsk til de vanligste lokaliseringsspråkene, med Lara og med ulike MT-systemer. Vi ba deretter profesjonelle oversettere om å vurdere nøyaktigheten av alle oversettelsene. I tillegg ba vi profesjonelle oversettere flagge feil i Laras oversettelser, og i oversettelsene utført av kollegene deres – spesielt de på mediannivå og de som tilhører de beste 1 % av vårt nettverk av profesjonelle oversettere.
Vurdering av Laras nøyaktighet mot andre MT-systemer
* Prosentvis antall ganger at minst to av tre profesjonelle oversettere var enige om at en oversettelse var nøyaktig i 2 700 oversettelser fra engelsk til italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk.
Vi laget denne evalueringen for å sammenligne prestasjonene til ulike maskinoversettelsesprogram ved å la dem oversette business-relatert innhold fra den virkelige verden. Testsettet utgjorde totalt 2 700 setninger, som besto av 300 engelske kildesetninger oversatt av maskinoversettelsessystemer til ni av de mest forespurte lokaliseringsspråkene: italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk. Nøyaktigheten av disse maskingenererte oversettelsene ble omhyggelig vurdert av profesjonelle oversettere som var håndplukket for gjennomgangsprosessen. For å sikre objektivitet og eliminere skjevheter, brukte vi en dobbeltblind metode: Korrekturleserne var ikke klar over hvilken maskinoversettelsesprogram som produserte hver oversettelse, og de ble ikke informert om andre korrekturleseres evalueringer. Denne tilnærmingen gjorde det mulig å utføre en objektiv og rettferdig vurdering av hvert systems ytelse.
Evalueringsoppsett
Vi valgte 300 setninger fra reelle aktive oversettelsesprosjekter innen turisme, finans og teknologi. Evalueringen fokuserte på å måle nøyaktigheten av følgende maskinoversettelsesmodeller:
- Lara
- Google Translate
- DeepL
- OpenAIs GPT-4o (ved hjelp av en femskudds læringsmetode, som innebærer å gi fem eksempeloversettelser i ledeteksten for å veilede og forbedre modellens oversettelsesprestasjon)
Evalueringsprosessen
Valg av profesjonelle oversettere
For å vurdere oversettelseskvaliteten valgte vi profesjonelle oversettere med de beste resultatene fra et nettverk på 500 000 ved hjelp av T-Rank – et KI-drevet rangeringssystem utviklet av Translated. T-Rank hjelper med å velge toppytende, domenekvalifiserte profesjonelle oversettere ved å evaluere deres tidligere ytelse og kompetanse på tvers av mer enn 30 kriterier. Dette sørget for at oversetterne som ble valgt ut for evaluering, var høyt kvalifiserte oversettere med målspråket som morsmål.
Menneskelig evaluering
Tre profesjonelle morsmålsoversettere ble uavhengig gitt i oppgave å gjennomgå alle oversatt setninger for hvert målspråk. For å sikre en objektiv vurdering, visste oversetterne ikke hvilken modell som produserte oversettelsene.
Flertallets avgjørelse
Hvis minst to av tre oversettere var enige om at en oversettelsen var egnet for profesjonell bruk, fikk modellen ett poeng for den setningen. Denne metoden reduserte subjektiviteten og la vekt på konsensus.
Scoringsmetodikk
Den endelige poengsummen for hvert program representerer prosentandelen av tilfellene der et flertall av vurdererne godkjente oversettelsen. Denne tilnærmingen gjenspeiler konsistensen og påliteligheten til hver MT-modell i oversettelsen av profesjonelt innhold.
Resultater
Diagrammene nedenfor visualiserer ytelsen til de fire MT-programmene i de tre domenene. Lara demonstrerte høyest grad av nøyaktighet med en score på 65 %, mens andre modeller, inkludert Google Translate, DeepL og GPT-4, oppnådde mellom 54 og 58 %. Disse resultatene demonstrerer Laras konsekvent overlegne prestasjon på tvers av domener.
* Prosentvis antall ganger at minst to av tre profesjonelle oversettere var enige om at en oversettelse var nøyaktig i 2 700 oversettelser fra engelsk til italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk.
Evaluering av Laras nøyaktighet sammenlignet med profesjonelle oversettere
* Prosentvis antall ganger at minst to av tre profesjonelle oversettere var enige om at en oversettelse var nøyaktig i 2 700 oversettelser fra engelsk til italiensk, fransk, spansk, tysk, portugisisk, japansk, kinesisk, russisk og koreansk.
Vi sporer Laras fremgang gjennom regelmessig menneskelig scoring. En av de primære beregningene vi bruker er feil per 1 000 ord (EPT eller EPTW). Denne beregningen hjelper oss med å vurdere nøyaktigheten av oversettelse ved å beregne antall feil per 1 000 ord oversatt innhold. Ved hjelp av EPT kan vi objektivt måle Laras prestasjoner og identifisere områder som må forbedres.
Evalueringsoppsett
I denne evalueringen fokuserte vi på brukergenerert innhold, inkludert chatter, omtaler og produktbeskrivelser. Vi brukte Lara og profesjonelle oversettere valgt fra median- og de beste 1 %-gruppen i nettverket vårt, til å oversette det samme innholdet, uten å bruke maskinoversettelse. Alle oversettelser ble deretter gjennomgått av profesjonelle oversettere som var håndplukket for gjennomgangsprosessen, for på den måten å fremheve feilene i oversettelsene.
Evalueringsprosessen
Utvalg av innhold
Vi gjorde et variert utvalg av brukergenerert materiale, inkludert chat-transkripsjoner, kundeanmeldelser og detaljerte produktbeskrivelser, for å vurdere oversettelsesytelsen på tvers av ulike innholdstyper.
Oversettelse
Det valgte innholdet ble først oversatt ved hjelp av Lara. Parallelt engasjerte vi profesjonelle oversettere fra nettverket vårt til å oversette samme innholdssett, uten hjelp fra maskinoversettelsesverktøy. Disse oversetterne ble nøye valgt fra median- og de beste 1 %-gruppen for å sikre en bred representasjon av menneskelig oversettelseskvalitet.
Identifisering av feil
Uansett hvilken metode som ble brukt, ble alle oversettelsene grundig gjennomgått av et eget team av profesjonelle oversettere. Disse korrekturleserne ble spesielt utvalgt på grunnlag av sin ekspertise, og fikk i oppgave å fremheve oversettelsesfeil uten å vite kilden til oversettelsene. Feilene inkluderte problemer som grammatiske feil, feiloversettelser og utelatelser. Dette trinnet ble brukt konsekvent for både Lara og de profesjonelle oversettelsene.
EPT-beregning
Gjennomsnittet av EPT-scoren ble beregnet ved å kombinere resultatene på tvers av flere oversettelser. Resultatet representerer feilfrekvensen og gjør det mulig for oss overvåke forbedringer i Laras prestasjoner.
Vurdering av neste versjon av Lara
Vi brukte den samme EPT-evalueringsprosessen til alfamodellen til Laras neste planlagte modell, som forventes i 2025. Dette hjalp oss å måle de tidlige forbedringene i den nye versjonen og sammenligne prestasjonen med den nåværende iterasjonen. Sporing av denne fremgangen gir oss verdifull innsikt i hvordan Lara forbedrer nøyaktigheten av oversettelsene den utfører.
Resultater
EPT-resultatene viser Laras stadige forbedring, gitt reduksjonen i antall feil på tvers av flere domener. Resultatene gjenspeiler tydelig Laras fremgang mot språksingularitet.
Språk har vært den viktigste faktoren i menneskelig evolusjon. Gjennom språk kan vi forstå hverandre og jobbe sammen for å bygge en bedre fremtid. Komplekst språk har gjort det mulig for oss å avansere raskere enn noen annen art.
Ved å gjøre det mulig for alle å forstå og bli forstått på sitt eget morsmål, låser vi opp den neste fasen i menneskelig evolusjon. Vi tror på mennesker.