Komplexní posouzení Lařiných překladatelských schopností
Pro posouzení výkonu Lary jsme přeložili 300 vět z angličtiny do nejčastěji požadovaných jazyků při lokalizaci, a to za pomoci Lary a různých systémů strojového překladu. Poté jsme požádali profesionální překladatele, aby posoudili přesnost jednotlivých překladů. Kromě toho jsme požádali profesionální překladatele, aby upozornili na chyby v Lařiných překladech i v překladech svých kolegů – konkrétně těch, jejichž kvalita překladu se pohybuje okolo střední hodnoty, a 1 % nejlepších překladatelů naší sítě profesionálních překladatelů.
Posouzení přesnosti Lary ve srovnání s jinými systémy strojového překladu
*Procento případů, kdy se alespoň 2 ze 3 profesionálních překladatelů shodli na tom, že překlad je přesný, a to na základě 2 700 překladů z angličtiny do italštiny, francouzštiny, španělštiny, němčiny, portugalštiny, japonštiny, čínštiny, ruštiny a korejštiny.
Toto posouzení jsme navrhli tak, abychom porovnali výkonnost různých strojových překladačů s využitím reálného obsahu na podnikové úrovni. Testovací soubor se skládal z celkem 2 700 vět, které tvořilo 300 anglických zdrojových vět přeložených systémy strojového překladu do devíti nejčastěji překládaných jazyků: italštiny, francouzštiny, španělštiny, němčiny, portugalštiny, japonštiny, čínštiny, ruštiny a korejštiny. Přesnost těchto strojově generovaných překladů byla důkladně posouzena profesionálními překladateli, kteří byli pečlivě vybráni pro kontrolní proces. Abychom zajistili objektivitu a vyloučili zkreslení, použili jsme dvojitě zaslepenou metodu: posuzující překladatelé nevěděli, který strojový překladač vytvořil jednotlivé překlady, a neměli informace o hodnoceních ostatních překladatelů. Tento přístup umožnil nestranné a spravedlivé posouzení výkonnosti každého systému.
Nastavení procesu vyhodnocení
Vybrali jsme 300 reálných vět z aktivních překladatelských projektů ze tří odvětví: cestovního ruchu, financí a technologie. Při posuzování jsme se zaměřili na měření přesnosti následujících modelů strojového překladu:
- Lara
- Překladač Google
- DeepL
- GPT-4o od OpenAI (ten využívá učení na základě 5 variant, kdy v rámci jedné výzvy poskytne pět různých možných překladů, díky čemuž se může zlepšovat a získávat kontext)
Proces posouzení
Výběr profesionálních překladatelů
Pro posouzení kvality překladu jsme vybrali nejlepší profesionální překladatele ze sítě 500 000 překladatelů pomocí T-Ranku – systému hodnocení založeného na umělé inteligenci, který vyvinula společnost Translated. T-Rank pomáhá vybírat špičkové profesionální překladatele kvalifikované v dané oblasti tím, že hodnotí jejich předchozí výkon a odborné znalosti podle více než 30 kritérií. Díky tomu jsme měli jistotu, že překladatelé vybraní k posouzení byli vysoce kvalifikovaní rodilí mluvčí cílových jazyků.
Hodnocení ze strany lidských překladatelů
Pro každý cílový jazyk byli nezávisle na sobě přiděleni tři profesionální rodilí překladatelé, kteří zkontrolovali každou přeloženou větu. Překladatelé nevěděli, podle jakého modelu byly překlady vytvořeny, čímž bylo zajištěno objektivní hodnocení.
Většinový souhlas
Pokud se alespoň dva ze tří překladatelů shodli na tom, že překlad je vhodný k profesionálnímu použití, získal model za danou větu jeden bod. Tato metoda omezila subjektivitu a kladla důraz na shodu názorů.
Metodika bodování
Konečné skóre pro každý překladač představuje procento případů, kdy většina hodnotitelů překlad schválila. Tento přístup odráží konzistenci a spolehlivost jednotlivých modelů strojových překladačů při překladu odborného obsahu.
Výsledky
Níže uvedené grafy zobrazují výkon čtyř strojových překladačů ve třech oblastech. Lara prokázala vyšší přesnost s výsledkem 65 %, zatímco ostatní modely, včetně Překladače Google, DeepL a GPT-4, dosáhly od 54 % do 58 %. Tyto výsledky jsou důkazem toho, že Lara dosahuje trvale vynikajících výsledků v různých oblastech.
*Procento případů, kdy se alespoň 2 ze 3 profesionálních překladatelů shodli na tom, že překlad je přesný, a to na základě 2 700 překladů z angličtiny do italštiny, francouzštiny, španělštiny, němčiny, portugalštiny, japonštiny, čínštiny, ruštiny a korejštiny.
Hodnocení přesnosti Lary ve srovnání s profesionálními překladateli
*Procento případů, kdy se alespoň 2 ze 3 profesionálních překladatelů shodli na tom, že překlad je přesný, a to na základě 2 700 překladů z angličtiny do italštiny, francouzštiny, španělštiny, němčiny, portugalštiny, japonštiny, čínštiny, ruštiny a korejštiny.
Lařin pokrok sledujeme prostřednictvím pravidelného lidského bodování. Jedním z hlavních ukazatelů, které používáme, je počet chyb na tisíc slov (EPT nebo EPTW). Tento ukazatel nám pomáhá vyhodnotit přesnost překladu na základě počtu chyb na tisíc slov přeloženého obsahu. Pomocí EPT můžeme objektivně měřit Lařin výkon a určit oblasti, které je třeba zlepšit.
Nastavení procesu vyhodnocení
V tomto hodnocení jsme se zaměřili na obsah vytvářený uživateli, včetně chatů, recenzí a popisů produktů. Obsah jsme přeložili pomocí Lary a také jsme zapojili profesionální překladatele střední kvality a nejlepšího 1 percentilu naší sítě, aby přeložili stejný obsah bez použití strojového překladu. Všechny překlady následně zkontrolovali profesionální překladatelé, kteří byli speciálně vybráni pro kontrolní proces, aby upozornili na chyby.
Proces posouzení
Výběr obsahu
Abychom mohli komplexně posoudit kvalitu překladu napříč různými typy obsahu, vybrali jsme rozmanitou škálu materiálů vytvořených uživateli, včetně přepisů chatů, recenzí zákazníků a podrobných popisů produktů.
Překlad
Vybraný obsah byl nejprve přeložen pomocí Lary. Souběžně jsme zapojili profesionální překladatele z naší sítě, aby přeložili stejný text bez pomoci nástrojů strojového překladu. Tyto překladatele jsme pečlivě vybrali z průměrných překladatelů a nejlepšího 1 percentilu, aby byla zajištěna široká reprezentace kvality lidského překladu.
Detekce chyb
Bez ohledu na použitou metodu prošly všechny překlady přísnou kontrolou, kterou provedl samostatný tým profesionálních překladatelů. Tito posuzovatelé byli vybráni speciálně pro své odborné znalosti a jejich úkolem bylo upozornit na chyby v překladu, aniž by znali jeho zdroj. Mezi chyby patřila například gramatika, nesprávný význam a vynechávky. Tento krok byl důsledně dodržován ve všech překladech Lary a profesionálních překladech.
Výpočet EPT
Skóre EPT bylo zprůměrováno kombinací výsledků z více překladů. Toto skóre vyjadřuje četnost chyb a umožňuje nám sledovat zlepšování Lařina výkonu.
Vyhodnocení nové verze Lary
Stejný postup vyhodnocení EPT jsme použili na alfa model dalšího plánovaného modelu Lara, jehož spuštění očekáváme v roce 2025. Pomohlo nám to vyhodnotit počáteční zlepšení nové verze a porovnat její výkon se současnou variantou. Sledování tohoto pokroku nám poskytuje cenné informace o tom, jak Lara postupuje směrem k vyšší přesnosti překladu.
Výsledky
Výsledky EPT prokazují, že se Lara neustále zlepšuje v redukci chyb překladu napříč různými oblastmi. Výsledky jasně odrážejí Lařin pokrok směrem k jazykové singularitě.
Jazyk byl nejdůležitějším faktorem lidské evoluce. Díky jazyku si můžeme vzájemně porozumět a společně budovat lepší budoucnost. Složitý jazyk nám umožnil dosáhnout pokroku rychleji než jiným živočišným druhům.
Když zajistíme, aby nám k dorozumění stačil náš rodný jazyk, odemkneme další etapu vývoje lidstva. Věříme v lidi.