Laran käännösvalmiuksien kattava arviointi

Arvioidaksemme Laran suorituskykyä käänsimme 300 lausetta englannista lokalisoinnissa yleisimmin tarvittaville kielille Laran ja erilaisten käännösjärjestelmien avulla. Pyysimme sitten ammattikääntäjiä arvioimaan jokaisen käännöksen tarkkuuden. Lisäksi pyysimme ammattikääntäjiä ilmoittamaan virheistä Laran käännöksissä sekä heidän kollegojensa tekemissä käännöksissä. Erityisesti keskitason kääntäjien käännöksissä sekä kääntäjien, jotka kuuluvat parhaimpaan yhteen prosenttiin.

Laran käännösten tarkkuuden arviointi muihin MT-järjestelmiin verrattuna

*Prosenttiosuus kerroista, joina vähintään kaksi kolmesta ammattikääntäjästä piti käännöstä tarkkana 2700 käännöksessä englannista italiaan, ranskaan, espanjaan, saksaan, portugaliin, japaniin, kiinaan, venäjään ja koreaan.

Suunnittelimme tämän arvioinnin vertaillaksemme erilaisten konekäännöskoneiden suorituskykyä reaalimaailman yritystason sisältöjen avulla. Testinäytteemme koostui 2700 lauseesta: 300 englanninkielisestä lähdelauseesta, jotka konekääntimet käänsivät yhdeksälle yleisimmin pyydetylle lokalisointikielelle: italiaksi, ranskaksi, espanjaksi, saksaksi, portugaliksi, japaniksi, kiinaksi, venäjäksi ja koreaksi. Tarkastusprosessiin tarkkaan valitut ammattikääntäjät arvioivat huolellisesti näiden konekäännösten tarkkuuden. Halusimme varmistaa objektiivisuuden ja eliminoida puolueellisuutta, joten käytimme kaksoissokkomenetelmää: tarkastajat eivät olleet tietoisia siitä, mikä konekäännin tuotti kunkin käännöksen, eikä heille ilmoitettu muiden tarkastajien arvioinneista. Tämä lähestymistapa mahdollisti kunkin järjestelmän suorituskyvyn puolueettoman ja oikeudenmukaisen arvioinnin.

Arvioinnin asetukset

Valitsimme 300 lausetta tosielämän aktiivisista käännösprojekteista kolmelta alalta: matkailu, rahoitus ja teknologia. Arvioinnissa keskityttiin mittaamaan seuraavien konekääntämismallien tarkkuutta:

Lara
Google-kääntäjä
DeepL
OpenAI:n GPT-4o (käyttäen ns. 5-shot learning -menetelmää eli viiden otoksen oppimismenetelmää, jossa annetaan viisi esimerkkikäännöstä malliksi suorituskyvyn ohjaamiseksi ja parantamiseksi)

Arviointiprosessi

Ammattikääntäjien valinta

Käännösten laadun arvioimiseksi valitsimme 500 000 ammattikääntäjän joukosta parhaiten suoriutuneet ammattikääntäjät käyttäen Translatedin kehittämää tekoälypohjaista T-Rank-luokitusjärjestelmää. T-Rank auttaa valitsemaan parhaiten suoriutuvia, toimialaan pätevöityneitä ammattikääntäjiä arvioimalla heidän aiempaa suoriutumistaan ja asiantuntemustaan yli 30 kriteerin perusteella. Näin varmistettiin, että arvioijiksi valitut kääntäjät olivat erittäin päteviä kohdekielen natiivipuhujia.

Ihmisen tekemä arviointi

Kolme äidinkielenään kieltä puhuvaa ammattikääntäjää nimettiin itsenäisesti tarkistamaan jokainen käännetty lause jokaisesta kohdekielestä. Kääntäjät eivät tienneet, mikä malli tuotti käännökset, mikä varmisti puolueettoman arvioinnin.

Enemmistön yksimielisyys

Mikäli vähintään kaksi kolmesta kääntäjästä piti käännöstä ammattikäyttöön sopivana, sai malli kyseisestä lauseesta yhden pisteen. Tämä menetelmä vähensi subjektiivisuutta ja korosti mielipiteiden yhtenäisyyttä.

Pisteytysmenetelmä

Kunkin moottorin lopullinen pistemäärä edustaa niiden tapausten prosenttiosuutta, joissa useimmat arvioijat hyväksyivät käännöksen. Tämä lähestymistapa kuvastaa kunkin käännösmallin johdonmukaisuutta ja luotettavuutta ammattimaisen sisällön kääntämisessä.

Tulokset

Alla olevat kaaviot visualisoivat neljän MT-moottorin suorituskyvyn kolmella osa-alueella. Lara oli tarkin 65 %:lla, kun taas muiden mallien, kuten Google Translaten, DeepL:n ja GPT-4: n, tarkkuus oli 54–58 %. Nämä tulokset osoittavat, että Lara on jatkuvasti ylivoimainen kaikilla aloilla.

Takaisin Laran esittelyyn Takaisin Laran esittelyyn

Laran tarkkuuden arviointi ammattikääntäjiin verrattuna

Seuraamme Laran edistymistä säännöllisten ihmisten tekemien arviointien avulla. Yksi ensisijaisista mittareistamme on virheet tuhatta sanaa kohden (EPT tai EPTW). Tämä mittari auttaa meitä arvioimaan käännösten tarkkuutta laskemalla virheiden määrän käännetyn sisällön tuhatta sanaa kohden. EPT:n avulla voimme mitata objektiivisesti Laran suorituskykyä ja tunnistaa parannuskohteita.

Arvioinnin asetukset

Tässä arvioinnissa keskityimme käyttäjien luomaan sisältöön, mukaan lukien chatit, arvostelut ja tuotekuvaukset. Käänsimme sisällön Laran avulla ja palkkasimme myös ammattikääntäjiä, jotka valittiin verkostomme keskitason joukosta ja parhaimman yhden prosentin joukosta kääntämään saman sisällön ilman konekäännöstä. Tarkastusprosessiin erityisesti valitut ammattikääntäjät tarkastivat kaikki käännökset käännösvirheiden korostamiseksi.

Arviointiprosessi

Sisällön valinta

Valitsimme monipuolisen valikoiman käyttäjien luomia materiaaleja, kuten chat-kirjoituksia, asiakasarvosteluja ja yksityiskohtaisia tuotekuvauksia, arvioidaksemme kattavasti eri sisältötyyppien käännöksiä.

Käännös

Valittu sisältö käännettiin ensin Laran avulla. Samanaikaisesti palkkasimme verkostomme ammattikääntäjiä kääntämään samat sisällöt ilman konekäännöstyökaluja. Nämä kääntäjät valittiin huolellisesti keskivertojoukosta sekä parhaan prosentin joukosta, jotta varmistettiin ihmisten tekemien käännösten laadun laaja edustus.

Virheenpaljastus

Käytetystä menetelmästä riippumatta kaikki käännökset kävivät läpi perusteellisen tarkistusprosessin, jonka suoritti erillinen ammattikääntäjätiimi. Nämä tarkastajat valittiin erityisesti asiantuntemuksensa perusteella, ja heidän tehtävänään oli korostaa käännösvirheitä tietämättä käännösten lähdettä. Näihin virheisiin sisältyi kielioppivirheitä, käännösvirheitä ja puutteita. Tätä vaihetta sovellettiin johdonmukaisesti Laran ja ammattikääntäjien käännöksissä.

EPT-laskenta

EPT-pistemäärä laskettiin keskiarvona yhdistämällä useiden käännösten tulokset. Tämä pistemäärä edustaa virheiden esiintymistiheyttä ja antaa meille mahdollisuuden seurata Laran suorituskyvyn paranemista.

Laran seuraavan version arviointi

Käytimme samaa EPT-arviointiprosessia Laran seuraavan suunnitellun mallin alfamalliin. Seuraavan mallin odotetaan valmistuvan vuonna 2025. Tämä auttoi meitä mittaamaan uuden version varhaisia parannuksia ja vertaamaan sen suorituskykyä nykyiseen iteraatioon. Tämän edistymisen seuraaminen antaa meille arvokasta tietoa siitä, miten Lara etenee kohti tarkempia käännöksiä.

Tulokset

EPT-tulokset osoittavat, että Lara on parantanut tasaisesti suoritustaan ja käännösvirheet ovat vähentyneet useilla aloilla. Tulokset heijastavat selvästi Laran edistymistä kohti kielen singulaarisuutta.

Takaisin Laran esittelyyn Takaisin Laran esittelyyn

Kieli on ollut tärkein tekijä ihmisen evoluutiossa. Kielen kautta voimme ymmärtää toisiamme ja tehdä yhteistyötä paremman tulevaisuuden rakentamiseksi. Monimutkainen kieli on antanut meille mahdollisuuden edetä nopeammin kuin mikään muu laji.

Kun annamme kaikille mahdollisuuden ymmärtää ja tulla ymmärretyksi omalla äidinkielellään, avaamme oven ihmisen evoluution seuraavaan vaiheeseen. Me uskomme ihmisiin.

Laran käännösvalmiuksien kattava arviointi

Laran käännösten tarkkuuden arviointi muihin MT-järjestelmiin verrattuna

Arvioinnin asetukset

Arviointiprosessi

Ammattikääntäjien valinta

Ihmisen tekemä arviointi

Enemmistön yksimielisyys

Pisteytysmenetelmä

Tulokset

Laran tarkkuuden arviointi ammattikääntäjiin verrattuna

Arvioinnin asetukset

Arviointiprosessi

Sisällön valinta

Käännös

Virheenpaljastus

EPT-laskenta

Laran seuraavan version arviointi

Tulokset

Käännä yli 200 kielelle

Suosituimmat yhdistelmät