Laran käännösvalmiuksien kattava arviointi
Arvioidaksemme Laran suorituskykyä käänsimme 300 lausetta englannista lokalisoinnissa yleisimmin tarvittaville kielille Laran ja erilaisten käännösjärjestelmien avulla. Pyysimme sitten ammattikääntäjiä arvioimaan jokaisen käännöksen tarkkuuden. Lisäksi pyysimme ammattikääntäjiä ilmoittamaan virheistä Laran käännöksissä sekä heidän kollegojensa tekemissä käännöksissä. Erityisesti keskitason kääntäjien käännöksissä sekä kääntäjien, jotka kuuluvat parhaimpaan yhteen prosenttiin.
Laran käännösten tarkkuuden arviointi muihin MT-järjestelmiin verrattuna
*Prosenttiosuus kerroista, joina vähintään kaksi kolmesta ammattikääntäjästä piti käännöstä tarkkana 2700 käännöksessä englannista italiaan, ranskaan, espanjaan, saksaan, portugaliin, japaniin, kiinaan, venäjään ja koreaan.
Suunnittelimme tämän arvioinnin vertaillaksemme erilaisten konekäännöskoneiden suorituskykyä reaalimaailman yritystason sisältöjen avulla. Testinäytteemme koostui 2700 lauseesta: 300 englanninkielisestä lähdelauseesta, jotka konekääntimet käänsivät yhdeksälle yleisimmin pyydetylle lokalisointikielelle: italiaksi, ranskaksi, espanjaksi, saksaksi, portugaliksi, japaniksi, kiinaksi, venäjäksi ja koreaksi. Tarkastusprosessiin tarkkaan valitut ammattikääntäjät arvioivat huolellisesti näiden konekäännösten tarkkuuden. Halusimme varmistaa objektiivisuuden ja eliminoida puolueellisuutta, joten käytimme kaksoissokkomenetelmää: tarkastajat eivät olleet tietoisia siitä, mikä konekäännin tuotti kunkin käännöksen, eikä heille ilmoitettu muiden tarkastajien arvioinneista. Tämä lähestymistapa mahdollisti kunkin järjestelmän suorituskyvyn puolueettoman ja oikeudenmukaisen arvioinnin.
Arvioinnin asetukset
Valitsimme 300 lausetta tosielämän aktiivisista käännösprojekteista kolmelta alalta: matkailu, rahoitus ja teknologia. Arvioinnissa keskityttiin mittaamaan seuraavien konekääntämismallien tarkkuutta:
- Lara
- Google-kääntäjä
- DeepL
- OpenAI:n GPT-4o (käyttäen ns. 5-shot learning -menetelmää eli viiden otoksen oppimismenetelmää, jossa annetaan viisi esimerkkikäännöstä malliksi suorituskyvyn ohjaamiseksi ja parantamiseksi)
Arviointiprosessi
Ammattikääntäjien valinta
Käännösten laadun arvioimiseksi valitsimme 500 000 ammattikääntäjän joukosta parhaiten suoriutuneet ammattikääntäjät käyttäen Translatedin kehittämää tekoälypohjaista T-Rank-luokitusjärjestelmää. T-Rank auttaa valitsemaan parhaiten suoriutuvia, toimialaan pätevöityneitä ammattikääntäjiä arvioimalla heidän aiempaa suoriutumistaan ja asiantuntemustaan yli 30 kriteerin perusteella. Näin varmistettiin, että arvioijiksi valitut kääntäjät olivat erittäin päteviä kohdekielen natiivipuhujia.
Ihmisen tekemä arviointi
Kolme äidinkielenään kieltä puhuvaa ammattikääntäjää nimettiin itsenäisesti tarkistamaan jokainen käännetty lause jokaisesta kohdekielestä. Kääntäjät eivät tienneet, mikä malli tuotti käännökset, mikä varmisti puolueettoman arvioinnin.
Enemmistön yksimielisyys
Mikäli vähintään kaksi kolmesta kääntäjästä piti käännöstä ammattikäyttöön sopivana, sai malli kyseisestä lauseesta yhden pisteen. Tämä menetelmä vähensi subjektiivisuutta ja korosti mielipiteiden yhtenäisyyttä.
Pisteytysmenetelmä
Kunkin moottorin lopullinen pistemäärä edustaa niiden tapausten prosenttiosuutta, joissa useimmat arvioijat hyväksyivät käännöksen. Tämä lähestymistapa kuvastaa kunkin käännösmallin johdonmukaisuutta ja luotettavuutta ammattimaisen sisällön kääntämisessä.
Tulokset
Alla olevat kaaviot visualisoivat neljän MT-moottorin suorituskyvyn kolmella osa-alueella. Lara oli tarkin 65 %:lla, kun taas muiden mallien, kuten Google Translaten, DeepL:n ja GPT-4: n, tarkkuus oli 54–58 %. Nämä tulokset osoittavat, että Lara on jatkuvasti ylivoimainen kaikilla aloilla.
*Prosenttiosuus kerroista, joina vähintään kaksi kolmesta ammattikääntäjästä piti käännöstä tarkkana 2700 käännöksessä englannista italiaan, ranskaan, espanjaan, saksaan, portugaliin, japaniin, kiinaan, venäjään ja koreaan.
Laran tarkkuuden arviointi ammattikääntäjiin verrattuna
*Prosenttiosuus kerroista, joina vähintään kaksi kolmesta ammattikääntäjästä piti käännöstä tarkkana 2700 käännöksessä englannista italiaan, ranskaan, espanjaan, saksaan, portugaliin, japaniin, kiinaan, venäjään ja koreaan.
Seuraamme Laran edistymistä säännöllisten ihmisten tekemien arviointien avulla. Yksi ensisijaisista mittareistamme on virheet tuhatta sanaa kohden (EPT tai EPTW). Tämä mittari auttaa meitä arvioimaan käännösten tarkkuutta laskemalla virheiden määrän käännetyn sisällön tuhatta sanaa kohden. EPT:n avulla voimme mitata objektiivisesti Laran suorituskykyä ja tunnistaa parannuskohteita.
Arvioinnin asetukset
Tässä arvioinnissa keskityimme käyttäjien luomaan sisältöön, mukaan lukien chatit, arvostelut ja tuotekuvaukset. Käänsimme sisällön Laran avulla ja palkkasimme myös ammattikääntäjiä, jotka valittiin verkostomme keskitason joukosta ja parhaimman yhden prosentin joukosta kääntämään saman sisällön ilman konekäännöstä. Tarkastusprosessiin erityisesti valitut ammattikääntäjät tarkastivat kaikki käännökset käännösvirheiden korostamiseksi.
Arviointiprosessi
Sisällön valinta
Valitsimme monipuolisen valikoiman käyttäjien luomia materiaaleja, kuten chat-kirjoituksia, asiakasarvosteluja ja yksityiskohtaisia tuotekuvauksia, arvioidaksemme kattavasti eri sisältötyyppien käännöksiä.
Käännös
Valittu sisältö käännettiin ensin Laran avulla. Samanaikaisesti palkkasimme verkostomme ammattikääntäjiä kääntämään samat sisällöt ilman konekäännöstyökaluja. Nämä kääntäjät valittiin huolellisesti keskivertojoukosta sekä parhaan prosentin joukosta, jotta varmistettiin ihmisten tekemien käännösten laadun laaja edustus.
Virheenpaljastus
Käytetystä menetelmästä riippumatta kaikki käännökset kävivät läpi perusteellisen tarkistusprosessin, jonka suoritti erillinen ammattikääntäjätiimi. Nämä tarkastajat valittiin erityisesti asiantuntemuksensa perusteella, ja heidän tehtävänään oli korostaa käännösvirheitä tietämättä käännösten lähdettä. Näihin virheisiin sisältyi kielioppivirheitä, käännösvirheitä ja puutteita. Tätä vaihetta sovellettiin johdonmukaisesti Laran ja ammattikääntäjien käännöksissä.
EPT-laskenta
EPT-pistemäärä laskettiin keskiarvona yhdistämällä useiden käännösten tulokset. Tämä pistemäärä edustaa virheiden esiintymistiheyttä ja antaa meille mahdollisuuden seurata Laran suorituskyvyn paranemista.
Laran seuraavan version arviointi
Käytimme samaa EPT-arviointiprosessia Laran seuraavan suunnitellun mallin alfamalliin. Seuraavan mallin odotetaan valmistuvan vuonna 2025. Tämä auttoi meitä mittaamaan uuden version varhaisia parannuksia ja vertaamaan sen suorituskykyä nykyiseen iteraatioon. Tämän edistymisen seuraaminen antaa meille arvokasta tietoa siitä, miten Lara etenee kohti tarkempia käännöksiä.
Tulokset
EPT-tulokset osoittavat, että Lara on parantanut tasaisesti suoritustaan ja käännösvirheet ovat vähentyneet useilla aloilla. Tulokset heijastavat selvästi Laran edistymistä kohti kielen singulaarisuutta.
Kieli on ollut tärkein tekijä ihmisen evoluutiossa. Kielen kautta voimme ymmärtää toisiamme ja tehdä yhteistyötä paremman tulevaisuuden rakentamiseksi. Monimutkainen kieli on antanut meille mahdollisuuden edetä nopeammin kuin mikään muu laji.
Kun annamme kaikille mahdollisuuden ymmärtää ja tulla ymmärretyksi omalla äidinkielellään, avaamme oven ihmisen evoluution seuraavaan vaiheeseen. Me uskomme ihmisiin.