Een uitgebreide beoordeling van Lara's vertaalcapaciteiten

Om de prestaties van Lara te evalueren, hebben we 300 zinnen uit het Engels vertaald naar de meest gevraagde lokalisatietalen met behulp van Lara en verschillende MT-systemen. Vervolgens vroegen we professionele vertalers om de nauwkeurigheid van elke vertaling te beoordelen. Daarnaast hebben we professionele vertalers gevraagd om fouten te vinden in de vertalingen van Lara en in vertalingen van hun collega's, met name die op mediaan niveau en de top 1% van ons netwerk van professionele vertalers.

Het beoordelen van Lara's nauwkeurigheid ten opzichte van andere MT-systemen

Professionele vertalers geven de voorkeur aan LaraKwaliteit* (%)40%30%60%50%70%80%FinanciënTechnologieToerismeAlgemeenLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* Percentage van de tijd dat minstens 2 van de 3 professionele vertalers het eens waren dat een vertaling accuraat was in 2.700 vertalingen van het Engels naar het Italiaans, Frans, Spaans, Duits, Portugees, Japans, Chinees, Russisch en Koreaans.

We hebben deze evaluatie ontworpen om de prestaties van verschillende machinevertalingen te vergelijken met behulp van echte bedrijfscontent. Onze testset bestond uit 2.700 zinnen, bestaande uit 300 Engelse bronzinnen vertaald door machinevertalingssystemen in negen van de meest gevraagde lokalisatietalen: Italiaans, Frans, Spaans, Duits, Portugees, Japans, Chinees, Russisch en Koreaans. De nauwkeurigheid van deze machinevertalingen werd uitgebreid geëvalueerd door professionele vertalers die zorgvuldig zijn geselecteerd voor het beoordelingsproces. Om objectiviteit te garanderen en vooringenomenheden uit te sluiten, gebruikten we een dubbelblinde methode: de proeflezers wisten niet welke machinevertaalmachine elke vertaling tot stand bracht en ze werden niet op de hoogte gesteld van de beoordelingen van andere proeflezers. Door deze aanpak kon er een onbevooroordeelde en eerlijke beoordeling van de prestaties van elk systeem gemaakt worden.

Opzet van de evaluatie

We selecteerden 300 echte zinnen uit actieve vertaalprojecten in drie sectoren: toerisme, financiën en technologie. De evaluatie richtte zich op het meten van de nauwkeurigheid van de volgende machinevertaalmodellen:

  • Lara
  • Google Translate
  • DeepL
  • GPT-4o van OpenAI (met behulp van een 5-shot leeraanpak, waarbij vijf voorbeeldvertalingen worden gegeven binnen de prompt om de vertaalprestaties van het model te sturen en te verbeteren)

Het evaluatieproces

Selectie van professionele vertalers

Om de vertaalkwaliteit te beoordelen, hebben we uit een netwerk van 500.000 professionele vertalers de best presterende geselecteerd met behulp van T-Rank, een AI-gestuurd classificatiesysteem dat is ontwikkeld door Translated. T-Rank helpt bij het selecteren van de best presterende, domein-gekwalificeerde professionele vertalers door hun prestaties en expertise in het verleden te evalueren aan de hand van meer dan 30 criteria. Hiermee werd gegarandeerd dat de geselecteerde vertalers hooggekwalificeerde moedertaalsprekers van de doeltalen waren.

Evaluatie door mensen

Drie professionele moedertaalvertalers werden onafhankelijk toegewezen om elke vertaalde zin voor elke doeltaal te beoordelen. De vertalers wisten niet welk model de vertalingen tot stand bracht, waardoor een onbevooroordeelde evaluatie werd gegarandeerd.

Overeenstemming bij meerderheid

Als ten minste twee van de drie vertalers het erover eens waren dat een vertaling geschikt was voor professioneel gebruik, kreeg het model één punt voor die zin. Deze methode verminderde de subjectiviteit en benadrukte consensus.

Scoringsmethode

De eindscore voor elke machine staat voor het percentage gevallen waarin de meeste beoordelaars de vertaling goedkeurden. Deze benadering reflecteert de consistentie en betrouwbaarheid van elk MT-model bij het vertalen van professionele inhoud.

Resultaten

De grafieken hieronder laten de prestaties van de vier MT-machines in de drie domeinen zien. Lara toonde een hogere nauwkeurigheid met een score van 65%, terwijl andere modellen, waaronder Google Translate, DeepL en GPT-4, scores hadden variërend van 54% tot 58%. Deze resultaten laten zien dat Lara consistent superieur presteert in verschillende domeinen.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEKwaliteit* (%)50%40%70%60%80%90%FinanciënTechnologieToerismeAlgemeen
EN → ESKwaliteit* (%)60%40%100%80%FinanciënTechnologieToerismeAlgemeen
EN → FRKwaliteit* (%)40%30%60%50%70%80%FinanciënTechnologieToerismeAlgemeen
EN → ITKwaliteit* (%)40%20%100%80%60%FinanciënTechnologieToerismeAlgemeen
EN → JAKwaliteit* (%)50%30%90%70%FinanciënTechnologieToerismeAlgemeen
EN → KOKwaliteit* (%)40%20%80%60%FinanciënTechnologieToerismeAlgemeen
EN → PTKwaliteit* (%)40%20%100%80%60%FinanciënTechnologieToerismeAlgemeen
EN → RUKwaliteit* (%)20%0%80%60%40%FinanciënTechnologieToerismeAlgemeen
EN → ZHKwaliteit* (%)40%30%60%50%70%80%FinanciënTechnologieToerismeAlgemeen

* Percentage van de tijd dat minstens 2 van de 3 professionele vertalers het eens waren dat een vertaling accuraat was in 2.700 vertalingen van het Engels naar het Italiaans, Frans, Spaans, Duits, Portugees, Japans, Chinees, Russisch en Koreaans.

Lara's nauwkeurigheid beoordelen in vergelijking met professionele vertalers

Onze vooruitgang naar taalsingulariteitJanuari 2024Januari 2025Language SingularityTypisch machinevertalingssysteemLara Grande012610842LaraMediaan professionele vertalerBeste 1% professionele vertalerFouten per 1.000 woorden *

* Percentage van de tijd dat minstens 2 van de 3 professionele vertalers het eens waren dat een vertaling accuraat was in 2.700 vertalingen van het Engels naar het Italiaans, Frans, Spaans, Duits, Portugees, Japans, Chinees, Russisch en Koreaans.

We volgen Lara's vooruitgang door regelmatige menselijke evaluaties. Een van de primaire statistieken die we gebruiken is fouten per duizend woorden (EPT of EPTW). Deze maatstaf helpt ons de vertaalnauwkeurigheid te beoordelen door het aantal fouten per duizend woorden vertaalde inhoud te berekenen. Met behulp van EPT kunnen we de prestaties van Lara objectief meten en gebieden vaststellen die voor verbetering vatbaar zijn.

Opzet van de evaluatie

Bij deze evaluatie hebben we ons gericht op door gebruikers gegenereerde inhoud, waaronder chats, recensies en productbeschrijvingen. We vertaalden de inhoud met behulp van Lara en schakelden ook professionele vertalers in, geselecteerd uit de mediaan en top 1 percentiel van ons netwerk, om dezelfde inhoud te vertalen zonder gebruik te maken van automatische vertaling. Alle vertalingen werden vervolgens beoordeeld door professionele vertalers die speciaal voor het beoordelingsproces waren uitgekozen om de vertaalfouten aan het licht te brengen.

Het evaluatieproces

Inhoudselectie

We selecteerden een gevarieerd aanbod van door gebruikers gegenereerd materiaal, waaronder chattranscripties, klantrecensies en gedetailleerde productbeschrijvingen, om de vertaalprestaties voor verschillende soorten inhoud uitgebreid te beoordelen.

Vertaling

De geselecteerde inhoud werd eerst vertaald met Lara. Tegelijkertijd schakelden we professionele vertalers uit ons netwerk in om dezelfde inhoud te vertalen zonder de hulp van automatische vertaalmachines. Deze vertalers werden zorgvuldig gekozen uit de mediaan en de top 1 percentiel vertalers om een brede vertegenwoordiging van de menselijke vertaalkwaliteit te garanderen.

Detectie van fouten

Ongeacht de gebruikte methode werden alle vertalingen onderworpen aan een streng proefleesproces door een apart team van professionele vertalers. Deze proeflezers werden specifiek geselecteerd vanwege hun expertise en kregen de taak vertaalfouten te markeren zonder dat ze de bron van de vertaling kenden. Deze fouten waren onder andere grammaticale fouten, vertaalfouten en weglatingen. Deze stap werd consistent toegepast in Lara en professionele vertalingen.

EPT-berekening

De EPT-score werd gemiddeld door de resultaten over meerdere vertalingen te combineren. Deze score laat het aantal fouten zien (foutfrequentie) en stelt ons in staat om verbeteringen in Lara's prestaties bij te houden.

De volgende versie van Lara evalueren

We hebben hetzelfde EPT-evaluatieproces toegepast op het alfamodel van Lara's volgende geplande model, verwacht in 2025. Hiermee konden we de eerste verbeteringen in de nieuwe versie meten en de prestaties vergelijken met de huidige versie. Het bijhouden van deze voortgang geeft ons waardevol inzicht in hoe Lara evolueert naar een hogere vertaalnauwkeurigheid.

Resultaten

De EPT-resultaten tonen Lara's gestage verbetering in het verminderen van vertaalfouten in meerdere domeinen. De resultaten laten duidelijk Lara's vooruitgang naar taalsingulariteit zien.

Taal is de belangrijkste factor in de menselijke evolutie geweest. Door taal kunnen we elkaar begrijpen en samen werken aan een betere toekomst. Complexe taal heeft ons in staat gesteld om sneller vooruit te gaan dan welke andere soort dan ook.

Door iedereen in staat te stellen in hun moedertaal te begrijpen en begrepen te worden, maken we de volgende fase van de menselijke evolutie mogelijk. Wij geloven in mensen.