A Lara fordítási képességeinek átfogó értékelése

A Lara teljesítményének értékeléséhez 300 mondatot fordítottunk le angolról a lokalizáció során leggyakrabban kért nyelvekre a Lara és a különböző gépi fordítási rendszerek segítségével. Ezután arra kértünk hivatásos fordítókat, hogy értékeljék az egyes fordítások pontosságát. Ezenkívül arra kértük a hivatásos fordítókat, hogy jelöljék meg a hibákat Lara fordításaiban, illetve a kollégáik – konkrétan a hivatásos fordítókból álló hálózatunk medián szintű és felső 1%-ába tartozó tagjai – által végzett fordításokban.

A Lara pontosságának értékelése más gépi fordítási rendszerekkel összehasonlítva

A professzionális fordítók Larát preferáljákMinőség* (%)40%30%60%50%70%80%PénzügyTechnológiaTurizmusÁltalánosLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* 2700 fordítás alapján azon esetek százalékos aránya, amikor 3 hivatásos fordítóból legalább 2 egyetértett abban, hogy egy fordítás pontos volt angolról olaszra, franciára, spanyolra, németre, portugálra, japánra, kínaira, oroszra és koreai lefordítva.

Ezt az értékelést úgy alakítottuk ki, hogy összehasonlítsuk a különböző gépi fordítómotorok teljesítményét valós, vállalati szintű tartalom felhasználásával. Tesztkészletünk 2700 mondatból állt, amely 300 angol forrásmondatból állt, amelyeket gépi fordítórendszerek fordítottak le a kilenc leggyakrabban kért lokalizációs nyelvre: olaszra, franciára, spanyolra, németre, portugálra, japánra, kínaira, oroszra és koreaira. Ezeknek a gépi fordításoknak a pontosságát gondosan értékelték a lektorálási folyamathoz gondosan kiválasztott hivatásos fordítók. Az objektivitás biztosítása és az elfogultság kiküszöbölése érdekében kettős vak módszert alkalmaztunk: a lektorok nem voltak tisztában azzal, hogy melyik gépi fordítómotor készítette az egyes fordításokat, és nem tájékoztatták őket más lektorok értékeléseiről. Ez a megközelítés lehetővé tette az egyes rendszerek teljesítményének elfogulatlan és méltányos értékelését.

Értékelés összeállítása

300 valós mondatot választottunk ki aktív fordítási projektekből három iparágban: a turizmus, a pénzügyek és a technológia területén. Az értékelés a következő gépi fordítási modellek pontosságának mérésére összpontosított:

  • Lara
  • Google Fordító
  • DeepL
  • OpenAI GPT-4o (5 példa alapú tanulási megközelítés használatával, amely magában foglalja öt példafordítás biztosítását a prompton belül a modell fordítási teljesítményének irányításához és javításához)

Az értékelési folyamat

A hivatásos fordítók kiválasztása

A fordítás minőségének értékeléséhez a legjobban teljesítő hivatásos fordítókat választottuk ki a Translated által kifejlesztett, mesterséges intelligencia által vezérelt T-Rank rangsorolási rendszer segítségével. A T-Rank segít kiválasztani a legjobban teljesítő, szakterületi képesítéssel rendelkező hivatásos fordítókat azáltal, hogy több mint 30 kritérium alapján értékeli múltbeli teljesítményüket és szakértelmüket. Ez biztosította, hogy az értékelés elvégzésére kiválasztott fordítók a célnyelvek magasan képzett anyanyelvi szakemberei legyenek.

Emberi értékelés

Három hivatásos anyanyelvi fordítót külön jelöltünk ki az egyes lefordított mondatok felülvizsgálatára mindegyik célnyelven. A fordítók nem tudták, hogy melyik modell készítette a fordításokat, ezzel biztosítottuk az elfogulatlan értékelést.

Többségi konszenzus

Ha három fordítóból legalább kettő egyetértett abban, hogy egy fordítás alkalmas professzionális használatra, akkor a modell egy pontot kapott az adott mondatra. Ez a módszer csökkentette a szubjektivitást, és a konszenzusra fektetett nagyobb hangsúlyt.

Pontozási módszertan

Az egyes fordítómotorok végső pontszáma azoknak az eseteknek a százalékos arányát mutatja, amikor az értékelők töbsége jóváhagyta a fordítást. Ez a megközelítés tükrözi az egyes gépi fordítási modellek konzisztenciáját és megbízhatóságát a professzionális tartalom fordításában.

Eredmények

Az alábbi táblázatok a négy gépi fordítómotor teljesítményét szemléltetik a három szakterületen. A Lara 65%-os pontszámával nagyobb pontosságot mutatott, míg más modellek, köztük a Google Translate, a DeepL és a GPT-4 modell 54% és 58% közötti pontszámokat értek el. Ezek az eredmények bizonyítják, hogy a Lara következetesen kiváló teljesítményt nyújt minden területen.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEMinőség* (%)50%40%70%60%80%90%PénzügyTechnológiaTurizmusÁltalános
EN → ESMinőség* (%)60%40%100%80%PénzügyTechnológiaTurizmusÁltalános
EN → FRMinőség* (%)40%30%60%50%70%80%PénzügyTechnológiaTurizmusÁltalános
EN → ITMinőség* (%)40%20%100%80%60%PénzügyTechnológiaTurizmusÁltalános
EN → JAMinőség* (%)50%30%90%70%PénzügyTechnológiaTurizmusÁltalános
EN → KOMinőség* (%)40%20%80%60%PénzügyTechnológiaTurizmusÁltalános
EN → PTMinőség* (%)40%20%100%80%60%PénzügyTechnológiaTurizmusÁltalános
EN → RUMinőség* (%)20%0%80%60%40%PénzügyTechnológiaTurizmusÁltalános
EN → ZHMinőség* (%)40%30%60%50%70%80%PénzügyTechnológiaTurizmusÁltalános

* 2700 fordítás alapján azon esetek százalékos aránya, amikor 3 hivatásos fordítóból legalább 2 egyetértett abban, hogy egy fordítás pontos volt angolról olaszra, franciára, spanyolra, németre, portugálra, japánra, kínaira, oroszra és koreai lefordítva.

A Lara pontosságának értékelése a hivatásos fordítók munkájával összehasonlítva

Előrehaladásunk a nyelvi szingularitás felé2024. január2025. januárLanguage SingularityTipikus gépi fordítási rendszerLara Grande012610842LaraMedián hivatásos fordítóA legjobb 1%-ba tartozó hivatásos fordítóHibák 1000 szóra vetítve *

* 2700 fordítás alapján azon esetek százalékos aránya, amikor 3 hivatásos fordítóból legalább 2 egyetértett abban, hogy egy fordítás pontos volt angolról olaszra, franciára, spanyolra, németre, portugálra, japánra, kínaira, oroszra és koreai lefordítva.

A Lara előrehaladását rendszeres emberi pontozással követjük nyomon. Az általunk használt elsődleges mérőszámok egyike az ezer szavankénti hibák száma (EPT vagy EPTW). Ez a mérőszám segít felmérni a fordítás pontosságát azáltal, hogy kiszámítja az ezer szóra jutó hibák számát a lefordított tartalomban. Az EPT használatával objektíven mérhetjük a Lara teljesítményét, és azonosíthatjuk a fejlesztendő területeket.

Értékelés összeállítása

Ebben az értékelésben a felhasználók által létrehozott tartalomra összpontosítottunk, többek között csevegésekre, véleményekre és termékleírásokra. A tartalmakat lefordítottak a Lara segítségével, és hálózatunk medián sávjából és felső 1 százalékából kiválasztott hivatásos fordítókat is felkértünk, hogy gépi fordítás használata nélkül fordítsák le ugyanazt a tartalmat. Ezt követően minden fordítást kifejezetten a lektorálási folyamathoz kiválasztott hivatásos fordítók ellenőriztek, hogy azonosítsák a fordítási hibákat.

Az értékelési folyamat

A tartalom kiválasztása

A felhasználók által létrehozott anyagok széles skáláját választottuk ki, többek között csevegési átiratokat, ügyfelek véleményeit és részletes termékleírásokat, hogy átfogóan értékeljük a fordítási teljesítményt különböző tartalomtípusokon.

Fordítás

A kiválasztott tartalom fordítása először a Lara használatával történt. Ezzel párhuzamosan hálózatunk hivatásos fordítóit is felkértük, hogy gépi fordítóeszközök segítsége nélkül fordítsák le ugyanazokat a tartalmakat. Ezeket a fordítókat gondosan választottuk ki a medián szinten teljesítők és a felső 1 százalékba tartozó szakemberek közül, hogy az emberi fordítási minőség széles skáláját képviseljék.

Hibaészlelés

Az alkalmazott módszertől függetlenül minden fordítás szigorú lektorálási folyamaton ment keresztül, amelyet hivatásos fordítókból álló külön csapat végzett. Ezeket a lektorokat kifejezetten szakértelmük alapján választottuk ki, és azzal a feladattal bíztuk meg őket, hogy azonosítsák a fordítási hibákat a fordítások forrásának ismerete nélkül. Olyan hibák merültek fel, mint a nyelvtani hibák, a félrefordítások és a kimaradt szövegrészek. Ezt a lépést következetesen alkalmaztuk a Lara és a hivatásos fordítók munkája során is.

Ezer szavankénti hibák (EPT) kiszámítása

Az EPT-pontszámot több fordítás eredményeinek kombinálásával átlagoltuk. Ez a pontszám a hibák gyakoriságát mutatja, és lehetővé teszi számunkra, hogy nyomon kövessük a Lara teljesítményének javulását.

A Lara következő verziójának értékelése

Ugyanezt az EPT-alapú értékelési folyamatot alkalmaztuk a Lara következő tervezett modelljének alfa modelljére, amely 2025-ben várható. Ez segített mérni az új verzió korai fejlesztéseit, és összehasonlítani a teljesítményét a jelenlegi verzióval. Ennek az előrehaladásnak a nyomon követése értékes adatokat nyújt arról, hogy a Lara hogyan készít egyre pontosabb fordításokat.

Eredmények

Az EPT-eredmények azt mutatják, hogy a Lara egyre kevesebb fordítási hibát követ el több szakterületet is vizsgálva. Az eredmények egyértelműen tükrözik Lara előrehaladását a nyelvi szingularitás felé.

A nyelv az emberi evolúció legfontosabb tényezője. A nyelv segítségével megérthetjük egymást, és együtt dolgozhatunk a szebb jövő létrehozása érdekében. Az összetett nyelv lehetővé tette számunkra, hogy gyorsabban haladjunk előre, mint bármely más faj.

Ha lehetővé tesszük mindenki számára, hogy a saját anyanyelvén kommunikáljon, elérhetővé tesszük az emberi evolúció következő szakaszát. Hiszünk az emberekben.