Sveobuhvatna procjena Larinih prevoditeljskih sposobnosti

Kako bismo procijenili Larine rezultate, preveli smo 300 rečenica s engleskog na najčešće upotrebljavane jezike u lokalizaciji s pomoću Lare i raznih sustava strojnog prevođenja. Zatim smo zamolili profesionalne prevoditelje da procijene točnost svakog prijevoda. Osim toga, zatražili smo od profesionalnih prevoditelja da označe pogreške u Larinim prijevodima, kao i u prijevodima njihovih kolega - posebno onih na prosječnoj razini i gornjih 1 % naše mreže profesionalnih prevoditelja.

Procjena Larine točnosti u usporedbi s drugim sustavima strojnog prevođenja

Lara je prvi izbor profesionalnih prevoditeljaKvaliteta* (%)40%30%60%50%70%80%FinancijeTehnologijaTurizamOpćenitoLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* Postotak vremena kada su se najmanje 2 od 3 profesionalna prevoditelja složila s time da je prijevod točan u 2700 prijevoda s engleskog na talijanski, francuski, španjolski, njemački, portugalski, japanski, kineski, ruski i korejski jezik.

Ovu smo procjenu osmislili kako bismo usporedili točnost različitih mehanizama za strojno prevođenje s pomoću stvarnog sadržaja na razini poduzeća. Naš testni komplet sastojao se od 2700 rečenica, a one su se sastojale od 300 engleskih izvornih rečenica prevedenih sustavima strojnog prevođenja na devet najtraženijih jezika za lokalizaciju: talijanski, francuski, španjolski, njemački, portugalski, japanski, kineski, ruski i korejski. Točnost tih strojno generiranih prijevoda pomno su procijenili profesionalni prevoditelji pažljivo odabrani za postupak pregleda. Kako bismo osigurali objektivnost i uklonili pristranost, primijenili smo dvostruko slijepu metodu: recenzenti nisu bili svjesni koji stroj za prevođenje proizvodi svaki prijevod i nisu bili obaviješteni o ocjenama drugih recenzenata. Ovaj pristup omogućio je nepristranu i poštenu procjenu performansi svakog sustava.

Postavke procjene

Odabrali smo 300 rečenica iz stvarnog svijeta iz aktivnih prevoditeljskih projekata iz triju industrija: turizam, financije i tehnologija. Procjena je bila usredotočena na mjerenje točnosti sljedećih modela strojnog prevođenja:

  • Lara
  • Google prevoditelj
  • DeepL
  • GPT-4o društva OpenAI (s pomoću pristupa učenju od 5 snimaka, koji uključuje pružanje pet primjera prijevoda unutar upita za usmjeravanje i poboljšanje točnosti prijevoda modela)

Postupak procjene

Odabir profesionalnih prevoditelja

Kako bismo procijenili kvalitetu prijevoda, odabrali smo najbolje profesionalne prevoditelje iz mreže od 500 000 ljudi s pomoću značajke T-Rank, sustava rangiranja temeljenog na umjetnoj inteligenciji koji je razvilo društvo Translated. T-Rank pomaže u odabiru najuspješnijih profesionalnih prevoditelja kvalificiranih za određeno područje procjenom njihova prethodnog rada i stručnosti na temelju više od 30 kriterija. Time je osigurano da prevoditelji odabrani za procjenu budu visokokvalificirani izvorni govornici ciljnih jezika.

Ljudska procjena

Tri profesionalna prevoditelja, ujedno izvorna govornika, neovisno su dodijeljena za pregled svake prevedene rečenice za svaki ciljni jezik. Prevoditelji nisu znali koji je model proizveo prijevode, čime je osigurana nepristrana procjena.

Većinsko slaganje

Ako su se najmanje dva od tri prevoditelja složila da je prijevod prikladan za profesionalnu upotrebu, model je dobio jedan bod za tu rečenicu. Ovom se metodom smanjila subjektivnost i naglasio konsenzus.

Metodologija bodovanja

Konačna ocjena za svaki modul predstavlja postotak slučajeva u kojima je većina procjenjivača odobrila prijevod. Ovaj pristup odražava dosljednost i pouzdanost svakog modela strojnog prevođenja tijekom prevođenja stručnog sadržaja.

Rezultati

Grafikoni u nastavku prikazuju performanse četiriju modula strojnog prevođenja u tri domene. Lara je pokazala veću točnost uz rezultat od 65 %, dok su drugi modeli, uključujući Google prevoditelj, DeepL i GPT-4, imali rezultate u rasponu od 54 % do 58 %. Ovi rezultati pokazuju Larinu dosljedno superiornu izvedbu u svim domenama.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEKvaliteta* (%)50%40%70%60%80%90%FinancijeTehnologijaTurizamOpćenito
EN → ESKvaliteta* (%)60%40%100%80%FinancijeTehnologijaTurizamOpćenito
EN → FRKvaliteta* (%)40%30%60%50%70%80%FinancijeTehnologijaTurizamOpćenito
EN → ITKvaliteta* (%)40%20%100%80%60%FinancijeTehnologijaTurizamOpćenito
EN → JAKvaliteta* (%)50%30%90%70%FinancijeTehnologijaTurizamOpćenito
EN → KOKvaliteta* (%)40%20%80%60%FinancijeTehnologijaTurizamOpćenito
EN → PTKvaliteta* (%)40%20%100%80%60%FinancijeTehnologijaTurizamOpćenito
EN → RUKvaliteta* (%)20%0%80%60%40%FinancijeTehnologijaTurizamOpćenito
EN → ZHKvaliteta* (%)40%30%60%50%70%80%FinancijeTehnologijaTurizamOpćenito

* Postotak vremena kada su se najmanje 2 od 3 profesionalna prevoditelja složila s time da je prijevod točan u 2700 prijevoda s engleskog na talijanski, francuski, španjolski, njemački, portugalski, japanski, kineski, ruski i korejski jezik.

Procjena Larine točnosti u usporedbi s profesionalnim prevoditeljima

Naš napredak prema jezičnoj singularnostiSiječanj 2024.Siječanj 2025.Language SingularityTipičan sustav strojnog prevođenjaLara Grande012610842LaraProsječni profesionalni prevoditelj1 % najboljih profesionalnih prevoditeljaPogreške na 1000 riječi *

* Postotak vremena kada su se najmanje 2 od 3 profesionalna prevoditelja složila s time da je prijevod točan u 2700 prijevoda s engleskog na talijanski, francuski, španjolski, njemački, portugalski, japanski, kineski, ruski i korejski jezik.

Pratimo Larin napredak redovitim ljudskim bodovanjem. Jedan od primarnih metričkih podataka koje upotrebljavamo su pogreške na tisuću riječi (eng. „EPT” ili „EPTW”). Ova metrika pomaže nam procijeniti točnost prijevoda izračunavanjem broja pogrešaka na tisuću riječi prevedenog sadržaja. Na temelju EPT-a možemo objektivno mjeriti Larine rezultate i identificirati područja za poboljšanje.

Postavke procjene

U ovoj smo se procjeni usredotočili na sadržaj koji generiraju korisnici, uključujući razgovore, recenzije i opise proizvoda. Preveli smo sadržaj s pomoću Lare, a također smo angažirali profesionalne prevoditelje, koje smo odabrali iz srednjeg i gornjeg percentila od 1 % svoje mreže, kako bismo preveli isti sadržaj bez upotrebe strojnog prevođenja. Sve prijevode naknadno su pregledali profesionalni prevoditelji posebno odabrani za postupak pregleda kako bi se istaknule pogreške u prijevodu.

Postupak procjene

Odabir sadržaja

Odabrali smo raznolik raspon materijala koji generiraju korisnici, uključujući prijepise razgovora, recenzije kupaca i detaljne opise proizvoda, kako bismo sveobuhvatno procijenili točnost prijevoda u pogledu različitih vrsta sadržaja.

Prijevod

Odabrani sadržaj najprije je preveden s pomoću Lare. Istovremeno, angažirali smo profesionalne prevoditelje iz svoje mreže kako bismo preveli isti skup sadržaja bez pomoći ikakvih alata za strojno prevođenje. Ti su prevoditelji pomno odabrani među prosječno najboljim prevoditeljima iz 1 % gornjeg percentila kako bi se osigurala široka zastupljenost kvalitete ljudskog prijevoda.

Otkrivanje pogrešaka

Bez obzira na upotrijebljenu metodu, svi su prijevodi bili podvrgnuti strogom postupku pregleda, koji je proveo zaseban tim profesionalnih prevoditelja. Ti su lektori posebno odabrani zbog svoje stručnosti i imali su zadatak istaknuti pogreške u prijevodu bez poznavanja izvora prijevoda. Te su pogreške uključivale probleme kao što su gramatičke pogreške, pogrešni prijevodi i propusti u prijevodu. Ovaj je korak dosljedno primijenjen kako za Larine prijevode tako i za prijevode profesionalnih prevoditelja.

Izračun EPT-a

Ocjena EPT-a izračunata je kao prosjek kombiniranjem rezultata iz više prijevoda. Ova ocjena predstavlja količinu pogrešaka i omogućava nam praćenje poboljšanja Larinih rezultata.

Procjena sljedeće verzije Lare

Isti postupak procjene EPT-a primijenili smo na alfa model Larina sljedećeg planiranog modela, koji očekuje tijekom 2025. godine. To nam je pomoglo izmjeriti rana poboljšanja u novoj verziji i usporediti njezine performanse s trenutačnom inačicom. Praćenje ovog napretka pruža nam vrijedan uvid u to kako Lara napreduje prema većoj točnosti prijevoda.

Rezultati

Rezultati EPT-a pokazuju Larino neprestano poboljšanje u pogledu smanjenja pogrešaka u prijevodu u više domena. Rezultati jasno odražavaju Larin napredak prema jezičnoj singularnosti.

Jezik je bio najvažniji čimbenik u ljudskoj evoluciji. Putem jezika možemo razumjeti jedni druge i zajedno raditi na izgradnji bolje budućnosti. Složen jezik omogućio nam je da napredujemo brže od bilo koje druge vrste.

Omogućavajući svima da razumiju i budu shvaćeni na svojem materinskom jeziku otključavamo sljedeću fazu ljudske evolucije. Vjerujemo u ljude.