En omfattande bedömning av Laras översättningsförmåga

För att utvärdera Laras prestation översatte vi 300 meningar från engelska till de vanligaste språken, när det kommer till lokalisering, med hjälp av Lara och olika MT-system. Vi bad sedan professionella översättare bedöma noggrannheten i varje översättning. Dessutom bad vi de professionella översättarna att flagga de fel de hittade i Laras översättningar, samt i de översättningar som utförts av deras kollegor – specifikt de på mediannivå samt den bästa 1 % av vårt nätverk av professionella översättare.

Bedömning av Laras noggrannhet gentemot andra MT-system

Professionella översättare föredrar LaraKvalitet* (%)40%30%60%50%70%80%FinansTeknologiTurismAllmäntLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* Procentandel av tiden som minst 2 av 3 professionella översättare var överens om att en översättning var korrekt i 2 700 översättningar från engelska till italienska, franska, spanska, tyska, portugisiska, japanska, kinesiska, ryska och koreanska.

Vi utformade denna utvärdering för att jämföra prestandan hos olika maskinöversättningsmotorer med hjälp av verkligt innehåll från olika företag. Vår testuppsättning bestod av 2 700 meningar, bestående av 300 engelska källmeningar översatta av maskinöversättningssystem till nio av de mest efterfrågade lokaliseringsspråken: italienska, franska, spanska, tyska, portugisiska, japanska, kinesiska, ryska och koreanska. Noggrannheten hos dessa maskingenererade översättningar bedömdes noggrant av professionella översättare som noga valdes ut för granskningsprocessen. För att säkerställa objektivitet samt eliminera partiskhet använde vi en dubbelblind metod: granskarna var omedvetna om vilken maskinöversättningsmotor som producerade varje översättning och de informerades inte om andra granskares utvärderingar. Detta tillvägagångssätt möjliggjorde en opartisk och rättvis bedömning av varje systems prestanda.

Utvärderingens upplägg

Vi valde ut 300 verkliga meningar från aktiva översättningsprojekt inom tre branscher: turism, finans och teknik. Utvärderingen fokuserade på att mäta noggrannheten hos följande maskinöversättningsmodeller:

  • Lara
  • Google Translate
  • DeepL
  • OpenAI:s GPT-4o (med hjälp av en 5-shot inlärningsmetod, vilket innebär att man tillhandahåller fem exempelöversättningar i prompten för att vägleda och förbättra modellens översättningsprestanda)

Utvärderingens process

Ett urval av professionella översättare

För att bedöma översättningskvaliteten valde vi professionella översättare med topprestanda från ett nätverk på 500 000 personer, med hjälp av T-Rank – ett AI-drivet rankningssystem som har utvecklats av Translated. T-Rank hjälper till att välja ut toppresterande, domänkvalificerade och professionella översättare genom att utvärdera deras tidigare prestationer och expertis inom över 30 kriterier. Detta säkerställde att de översättare som valdes ut för utvärderingen var högkvalificerade modersmålstalare av de utvalda språken.

Mänsklig utvärdering

Tre professionella modersmålsöversättare gavs, oberoende av varandra, i uppdrag att granska varje översatt mening för varje målspråk. Översättarna visste inte vilken modell som producerade översättningarna, vilket säkerställde en opartisk utvärdering.

Majoritetsöverenskommelse

Om minst två av tre översättare var överens om att en översättning var lämplig för professionellt bruk fick modellen en poäng för den meningen. Denna metod minskade subjektiviteten och betonade konsensus.

Poängsättningsmetodik

Slutresultatet för varje motor representerar procentandelen av fallen där de flesta utvärderarna godkände översättningen. Detta tillvägagångssätt återspeglar konsekvensen och tillförlitligheten hos varje MT-modell vid översättningen av professionellt innehåll.

Resultat

Diagrammen nedan visualiserar prestandan hos de fyra MT-motorerna i de tre domänerna. Lara uppvisade högre noggrannhet med en slutpoäng på 65 %, medan andra modeller, inklusive Google Translate, DeepL och GPT-4, fick poäng från 54 % till 58 %. Dessa resultat visar Laras konsekvent överlägsna prestanda över de andra domänerna.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEKvalitet* (%)50%40%70%60%80%90%FinansTeknologiTurismAllmänt
EN → ESKvalitet* (%)60%40%100%80%FinansTeknologiTurismAllmänt
EN → FRKvalitet* (%)40%30%60%50%70%80%FinansTeknologiTurismAllmänt
EN → ITKvalitet* (%)40%20%100%80%60%FinansTeknologiTurismAllmänt
EN → JAKvalitet* (%)50%30%90%70%FinansTeknologiTurismAllmänt
EN → KOKvalitet* (%)40%20%80%60%FinansTeknologiTurismAllmänt
EN → PTKvalitet* (%)40%20%100%80%60%FinansTeknologiTurismAllmänt
EN → RUKvalitet* (%)20%0%80%60%40%FinansTeknologiTurismAllmänt
EN → ZHKvalitet* (%)40%30%60%50%70%80%FinansTeknologiTurismAllmänt

* Procentandel av tiden som minst 2 av 3 professionella översättare var överens om att en översättning var korrekt i 2 700 översättningar från engelska till italienska, franska, spanska, tyska, portugisiska, japanska, kinesiska, ryska och koreanska.

Utvärdering av Laras noggrannhet i jämförelse med professionella översättare

Vår resa mot språksingularitetJanuari 2024Januari 2025Language SingularityEtt typiskt system för maskinöversättningLara Grande012610842LaraProfessionell medianöversättareTopp 1 % av de bästa professionella översättarnaFel per 1 000 ord *

* Procentandel av tiden som minst 2 av 3 professionella översättare var överens om att en översättning var korrekt i 2 700 översättningar från engelska till italienska, franska, spanska, tyska, portugisiska, japanska, kinesiska, ryska och koreanska.

Vi spårar Laras framsteg genom regelbunden mänsklig poängsättning. En av de primära mätvärdena vi använder är fel per tusen ord (EPT eller EPTW). Detta mått hjälper oss att bedöma noggrannheten hos översättningen genom att beräkna antalet fel per tusen ord av översatt innehåll. Med hjälp av EPT kan vi objektivt mäta Laras prestation och identifiera förbättringsområden.

Utvärderingens upplägg

I denna utvärdering fokuserade vi på användargenererat innehåll såsom chattar, recensioner och produktbeskrivningar. Vi översatte innehållet med Lara och anlitade även professionella översättare som valts ut från medianen likväl som topp 1 percentilen i vårt nätverk, för att översätta samma innehåll utan att använda någon maskinöversättning. Alla översättningar granskades därefter av professionella översättare som valts ut, specifikt för granskningsprocessen, för att belysa översättningsfelen.

Utvärderingens process

Urval av innehåll

Vi valde ett brett utbud av användargenererat material, inklusive chattavskrifter, kundrecensioner och detaljerade produktbeskrivningar för att heltäckande bedöma översättningsprestandan hos olika innehållstyper.

Översättning

Det valda innehållet översattes först med Lara. Parallellt anlitade vi professionella översättare från vårt nätverk för att översätta samma uppsättning innehåll utan hjälp av några maskinöversättningsverktyg. Dessa översättare valdes noggrant ut bland både medianaktörer och topp 1 percentilen, för att säkerställa en bred representation av kvaliteten hos mänsklig översättning.

Felavkänning

Oavsett vilken metod som användes genomgick alla översättningar en rigorös granskningsprocess som genomfördes av ett separat team av professionella översättare. Dessa granskare valdes specifikt ut för sin expertis och fick i uppgift att belysa översättningsfel utan att känna till källan till översättningarna. Dessa fel inkluderade bland annat grammatiska fel, felöversättningar och utelämnanden. Detta steg tillämpades konsekvent i Lara och professionella översättningar.

Beräkning av EPT

EPT-poängen beräknades i genomsnitt genom att kombinera resultaten från flertalet översättningar. Denna poäng representerar felfrekvensen och gör det möjligt för oss att hålla uppsikt över förbättringarna i Laras prestation.

Utvärdering av nästa version av Lara

Vi tillämpade samma EPT-utvärderingsprocess på alfamodellen för Laras nästa planerade modell, som förväntas komma under 2025. Detta hjälpte oss att mäta de tidiga förbättringarna i den nya versionen samt jämföra dess prestanda med den aktuella iterationen. Att spåra dessa framsteg ger oss värdefull insikt i hur Lara avancerar mot högre noggrannhet i sina översättningar.

Resultat

EPT-resultaten visar Laras stadiga förbättring när det gäller att minska översättningsfel över flera domäner. Resultaten återspeglar tydligt Laras framsteg mot språksingularitet.

Språket har varit den viktigaste faktorn i människans utveckling. Genom språket kan vi förstå varandra och arbeta tillsammans för att bygga en ljusare framtid. Komplexa språk har gjort det möjligt för oss att avancera snabbare än någon annan art.

Genom att göra det möjligt för alla att förstå och bli förstådda på sitt modersmål låser vi upp nästa steg i den mänskliga utvecklingen. Vi tror på människor.