Komplexné hodnotenie prekladateľských schopností Lary
Na vyhodnotenie výkonu Lary sme preložili 300 viet z angličtiny do najčastejšie požadovaných jazykov v lokalizácii pomocou Lary a rôznych systémov MT. Potom sme požiadali profesionálnych prekladateľov, aby posúdili správnosť jednotlivých prekladov. Profesionálnych prekladateľov sme tiež požiadali, aby označili chyby v prekladoch Lary, ako aj v prekladoch, ktoré urobili ich kolegovia, najmä prekladatelia na priemernej úrovni a profesionálni prekladatelia tvoriaci najlepšie 1 % v našej sieti.
Posúdenie presnosti Lary v porovnaní s inými systémami MT
* Percento prípadov, keď aspoň 2 z 3 profesionálnych prekladateľov súhlasili s tým, že preklad je presný, a to na základe 2 700 prekladov z angličtiny do taliančiny, francúzštiny, španielčiny, nemčiny, portugalčiny, japončiny, čínštiny, ruštiny a kórejčiny.
Toto hodnotenie sme navrhli s cieľom porovnať výkonnosť rôznych nástrojov strojového prekladu pomocou reálneho obsahu na podnikovej úrovni. Náš testovací súbor pozostával z 2 700 viet, ktoré tvorilo 300 anglických zdrojových viet preložených systémami strojového prekladu do deviatich najčastejšie požadovaných jazykov lokalizácie: taliančiny, francúzštiny, španielčiny, nemčiny, portugalčiny, japončiny, čínštiny, ruštiny a kórejčiny. Presnosť týchto strojovo vygenerovaných prekladov dôkladne posúdili profesionálni prekladatelia starostlivo vybraní na kontrolu. Keďže sme chceli zabezpečiť objektivitu a eliminovať zaujatosť, použili sme metódu dvojitého zaslepenia. Korektori teda nevedeli, ktorý nástroj na strojový preklad bol použitý na daný preklad a takisto neboli informovaní o hodnoteniach od iných korektorov. Tento prístup umožnil nestranné a spravodlivé posúdenie výkonnosti jednotlivých systémov.
Nastavenie hodnotenia
Vybrali sme 300 reálnych viet z aktívnych prekladateľských projektov v troch odvetviach: cestovný ruch, financie a technológie. Hodnotenie sa zameralo na zisťovanie miery správnosti nasledujúcich modelov strojového prekladu:
- Lara,
- Google Translate,
- DeepL,
- OpenAI GPT-4o (kde sa použil prístup učenia na základe piatich príkladov, ktorý spočíval v poskytnutí piatich príkladov prekladov v pokyne s cieľom usmerniť AI a zlepšiť prekladateľský výkon modelu).
Proces hodnotenia
Výber profesionálnych prekladateľov
Na posúdenie kvality prekladu sme vybrali najlepších profesionálnych prekladateľov zo siete 500 000 prekladateľov pomocou systému hodnotenia založeného na umelej inteligencii T-Rank, ktorý vyvinula spoločnosť Translated. T-Rank pomáha vyberať najlepších profesionálnych prekladateľov s odbornou kvalifikáciou na základe hodnotenia ich predchádzajúcej výkonnosti a odborných znalostí vo viac ako 30 kritériách. Tým sa zabezpečilo, že prekladatelia vybraní na vykonanie hodnotenia boli vysoko kvalifikované osoby, ktorých rodným jazykom je jeden z cieľových jazykov.
Hodnotenie človekom
Ku každej preloženej vete pre každý cieľový jazyk boli nezávisle priradení traja profesionálni prekladatelia – osoby, ktorých rodným jazykom je daný jazyk. Prekladatelia nevedeli, ktorý model vytvoril preklady, čím sa zabezpečilo nezaujaté hodnotenie.
Zhoda väčšiny
Ak sa aspoň dvaja z troch prekladateľov zhodli, že preklad je vhodný na profesionálne použitie, model získal za túto vetu jeden bod. Touto metódou sa znižovala subjektivita a kládol sa dôraz na konsenzus.
Metodika bodovania
Konečné skóre pre každý nástroj predstavuje percento prípadov, keď väčšina korektorov preklad schválila. Tento prístup odráža jednotnosť a spoľahlivosť každého modelu MT pri preklade odborného obsahu.
Výsledky
Nižšie uvedené grafy zobrazujú výkon štyroch motorov MT v troch oblastiach. Lara preukázala vyššiu presnosť so skóre 65 %, zatiaľ čo iné modely vrátane Google Translate, DeepL a GPT-4 mali skóre v rozsahu od 54 % do 58 %. Tieto výsledky zhodne ukazujú vynikajúcu výkonnosť Lary vo všetkých oblastiach.
* Percento prípadov, keď aspoň 2 z 3 profesionálnych prekladateľov súhlasili s tým, že preklad je presný, a to na základe 2 700 prekladov z angličtiny do taliančiny, francúzštiny, španielčiny, nemčiny, portugalčiny, japončiny, čínštiny, ruštiny a kórejčiny.
Hodnotenie presnosti Lary v porovnaní s profesionálnymi prekladateľmi
* Percento prípadov, keď aspoň 2 z 3 profesionálnych prekladateľov súhlasili s tým, že preklad je presný, a to na základe 2 700 prekladov z angličtiny do taliančiny, francúzštiny, španielčiny, nemčiny, portugalčiny, japončiny, čínštiny, ruštiny a kórejčiny.
Pokrok Lary sledujeme prostredníctvom pravidelného hodnotenia človekom. Jednou z primárnych metrík, ktoré používame, je počet chýb na tisíc slov (EPT alebo EPTW). Táto metrika nám pomáha posúdiť presnosť prekladu prostredníctvom výpočtu počtu chýb na tisíc slov preloženého obsahu. Pomocou EPT dokážeme objektívne zisťovať výkon Lary a identifikovať oblasti, v ktorých je potrebné zlepšovanie.
Nastavenie hodnotenia
V tomto hodnotení sme sa zamerali na obsah generovaný používateľom vrátane četov, hodnotení a opisov produktov. Obsah sme preložili pomocou Lary a takisto sme ho zadali na preklad priemerným profesionálnym prekladateľom a prekladateľom vybraným z najlepšieho 1 % našej siete. Prekladatelia pritom nepoužívali žiadny strojový preklad. Všetky preklady potom skontrolovali profesionálni prekladatelia osobitne vybraní na kontrolu. Ich úlohou bolo upozorniť na chyby v preklade.
Proces hodnotenia
Výber obsahu
Vybrali sme pestrú škálu materiálov generovaných používateľom vrátane prepisov četov, hodnotení zákazníkov a podrobných opisov produktov, aby sme komplexne posúdili výsledky prekladu v rôznych typoch obsahu.
Preklad
Vybraný obsah bol najprv preložený pomocou Lary. Zároveň sme najali profesionálnych prekladateľov z našej siete, aby preložili rovnaký obsah bez pomoci akýchkoľvek nástrojov strojového prekladu. Títo prekladatelia boli starostlivo vybraní spomedzi priemerných prekladateľov a najlepšieho 1 % prekladateľov. Chceli sme totiž zabezpečiť široké zastúpenie kvality ľudského prekladu.
Zisťovanie chýb
Bez ohľadu na použitú metódu prešli všetky preklady dôkladnou kontrolou, ktorú vykonal samostatný tím profesionálnych prekladateľov. Títo korektori boli špeciálne vybraní vďaka svojim odborným znalostiam a ich úlohou bolo zdôrazniť chyby v preklade bez toho, aby poznali zdroj prekladov. Tieto chyby zahŕňali také problémy, ako sú gramatické chyby, nesprávne preklady a vynechaný text. Tento krok bol aplikovaný jednotne v celom rozsahu prekladov od Lary aj od profesionálnych prekladateľov.
Výpočet EPT
Skóre EPT bolo spriemerované kombináciou výsledkov z viacerých prekladov. Toto skóre predstavuje frekvenciu chýb a umožňuje nám monitorovať zlepšovanie výkonnosti Lary.
Hodnotenie ďalšej verzie Lary
Rovnaký postup hodnotenia EPT sme použili na alfa verziu ďalšieho plánovaného modelu Lara, ktorý sa očakáva v roku 2025. To nám pomohlo zisťovať včasné zlepšenia v novej verzii a porovnať jej výkon s aktuálnou verziou. Sledovanie tohto pokroku nám poskytuje cenný prehľad o tom, ako Lara postupuje smerom k vyššej presnosti prekladu.
Výsledky
Výsledky EPT ukazujú, že Lara sa neustále zlepšuje a znižuje počet chýb v preklade vo viacerých oblastiach. Výsledky jasne odrážajú pokrok Lary smerom k jazykovej singularite.
Jazyk bol najdôležitejším faktorom v ľudskej evolúcii. Prostredníctvom jazyka si dokážeme navzájom rozumieť a môžeme spolu pracovať na budovaní lepšej budúcnosti. Vďaka zložitému jazyku sme napredovali rýchlejšie ako ktorýkoľvek iný druh.
Tým, že umožníme každému pochopiť a byť pochopený vo svojom rodnom jazyku, otvárame ďalšiu fázu ľudskej evolúcie. Veríme v ľudí.