Цялостна оценка на възможностите за превод на Lara

За да оценим ефективността на Lara, преведохме 300 изречения от английски на най-търсените езици за локализация, използвайки Lara и различни системи за машинен превод. След това помолихме професионални преводачи да оценят точността на всеки превод. Освен това поискахме от професионалните преводачи да маркират грешките в преводите на Lara по начина, по който го правят за преводите, извършени от техни колеги – по-специално тези на средно ниво и най-добрите 1% от нашата мрежа от професионални преводачи.

Оценка на точността на Lara спрямо други системи за машинен превод

Lara – изборът на професионалните преводачиКачество* (%)40%30%60%50%70%80%ФинансиТехнологииТуризъмСъдържание от общ характерLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* Процент от времето, през което поне 2 от 3 професионални преводачи са потвърдили, че даден превод е точен в 2700 превода от английски на италиански, френски, испански, немски, португалски, японски, китайски, руски и корейски език.

Разработихме тази оценка, за да сравним ефективността на различни системи за машинен превод, използвайки съдържание на корпоративно ниво от реалния свят. Тестовият масив се състоеше от 2700 изречения, а именно 300 изречения на английски език, преведени на девет от най-често срещаните езици от гледна точка на локализацията: италиански, френски, испански, немски, португалски, японски, китайски, руски и корейски. Точността на тези машинно генерирани преводи беше щателно оценена от професионални преводачи, внимателно подбрани за процеса на преглед. За да гарантираме обективност и да елиминираме пристрастността, използвахме метода за двойна оценка „на сляпо“: проверяващите не знаеха коя система за машинен превод създава всеки превод и не бяха информирани за оценките на другите проверяващи. Този подход позволява безпристрастна и справедлива оценка на ефективността на всяка система.

Система за оценяване

Избрахме 300 реални изречения от активни проекти за превод в 3 индустрии: туризъм, финанси и технологии. Оценката е фокусирана върху измерването на точността на следните модели за машинен превод:

  • Lara
  • Google Translate
  • DeepL
  • GPT-4o на OpenAI (използвайки подход за обучение, базиран на подсказване, който включва предоставяне на пет примера за превод за подобряване на производителността на модела)

Процес на оценяване

Избор на професионални преводачи

За да оценим качеството на превода, избрахме най-добрите професионални преводачи от мрежа от 500 000 души, използвайки T-Rank – система за класиране, базирана на изкуствен интелект, разработена от Translated. T-Rank помага при избора на професионални преводачи с най-високи резултати, квалифицирани в областта, като оценява предишната работа и знанията им по повече от 30 критерия. Това гарантира, че избраните за оценяване преводачи са висококвалифицирани специалисти, владеещи перфектно целевите езици.

Оценяване от хора

Трима професионални преводачи, владеещи перфектно езика, бяха определени независимо да прегледат всяко преведено изречение за всеки целеви език. Преводачите не знаеха кой модел е създал преводите, което гарантира безпристрастна оценка.

Мнение на мнозинството

Ако поне двама от трима преводачи са потвърдили, че провереният превод е подходящ за професионална употреба, моделът е получил една точка за това изречение. Този метод ни позволи да намалим субективизма и да акцентираме върху консенсуса.

Методология за оценяване

Крайният резултат за всяка система е процентът на случаите, в които преводът е одобрен от мнозинството лингвисти. Този подход отразява последователността и надеждността на всеки модел за машинен превод при превода на професионално съдържание.

Резултати

Диаграмите по-долу представят ефективността на четирите системи за машинен превод в трите области. Lara демонстрира по-висока точност с резултат от 65%, докато другите модели, включително Google Translate, DeepL и GPT-4, имат резултати, вариращи от 54% до 58%. Тези резултати показват постоянното превъзходство на Lara във всички области.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEКачество* (%)50%40%70%60%80%90%ФинансиТехнологииТуризъмСъдържание от общ характер
EN → ESКачество* (%)60%40%100%80%ФинансиТехнологииТуризъмСъдържание от общ характер
EN → FRКачество* (%)40%30%60%50%70%80%ФинансиТехнологииТуризъмСъдържание от общ характер
EN → ITКачество* (%)40%20%100%80%60%ФинансиТехнологииТуризъмСъдържание от общ характер
EN → JAКачество* (%)50%30%90%70%ФинансиТехнологииТуризъмСъдържание от общ характер
EN → KOКачество* (%)40%20%80%60%ФинансиТехнологииТуризъмСъдържание от общ характер
EN → PTКачество* (%)40%20%100%80%60%Фи�нансиТехнологииТуризъмСъдържание от общ характер
EN → RUКачество* (%)20%0%80%60%40%ФинансиТехнологииТуризъмСъдържание от общ характер
EN → ZHКачество* (%)40%30%60%50%70%80%ФинансиТехнологииТуризъмСъдържание от общ характер

* Процент от времето, през което поне 2 от 3 професионални преводачи са потвърдили, че даден превод е точен в 2700 превода от английски на италиански, френски, испански, немски, португалски, японски, китайски, руски и корейски език.

Оценка на точността на Lara в сравнение с професионалните преводачи

Нашият напредък към езиковото уеднаквяванеЯнуари 2024 г.Януари 2025 г.Language SingularityТипична система за машинен преводLara Grande012610842LaraПрофесионален преводач на средно нивоПрофесионален преводач – 1% от най-добритеГрешки на 1000 думи *

* Процент от времето, през което поне 2 от 3 професионални преводачи са потвърдили, че даден превод е точен в 2700 превода от английски на италиански, френски, испански, немски, португалски, японски, китайски, руски и корейски език.

Проследяваме прогреса на Lara чрез редовно оценяване от хора. Един от основните показатели, които използваме, е брой грешки на хиляда думи (EPT или EPTW). Този показател ни помага да оценим точността на превода, като изчислим броя на грешките на хиляда думи преведено съдържание. Използвайки EPT можем обективно да измерим ефективността на Lara и да идентифицираме областите за подобрение.

Система за оценяване

В това оценяване се фокусирахме върху генерирано от потребителите съдържание, включително чатове, отзиви и описания на продукти. Преведохме текстовете с помощта на Lara и след това помолихме избрани професионални преводачи на средно ниво и от водещата категория специалисти (1% от нашата мрежа), да преведат същото съдържание, без да използват машинен превод. Всички преводи впоследствие бяха проверени от професионални преводачи, специално подбрани за процеса на проверката, за да подчертаят грешките в превода.

Процес на оценяване

Избор на съдържание

Избрахме разнообразна гама от генерирани от потребителите материали, включително разговори в чатове, отзиви от клиенти и подробни описания на продукти, за да оценим изчерпателно ефективността на преводите сред различните типове съдържание.

Превод

Избраното съдържание беше преведено първо с помощта на Lara. Успоредно с това ангажирахме професионални преводачи от нашата мрежа да преведат един и същ набор от съдържание без помощта на каквито и да било инструменти за машинен превод. Преводачите бяха внимателно подбрани от групите на средно ниво и най-добрите 1%, за да гарантираме широко представяне на качеството на човешкия превод.

Откриване на грешки

Независимо от използвания метод, всички преводи са преминали през строг процес на проверка, извършена от отделен екип от професионални преводачи. Тези проверяващи бяха специално подбрани заради техния експертен опит и бяха натоварени със задачата да подчертаят грешките в превода, без да знаят източника на преводите. Грешките включваха проблеми като граматически грешки, неправилни преводи и пропуски. Тази стъпка беше приложена последователно за преводите на Lara и на професионалистите.

Изчисляване на EPT

Оценката на EPT беше осреднена чрез комбиниране на резултатите от множество преводи. Този резултат представлява честотата на грешките и ни позволява да наблюдаваме подобренията в ефективността на Lara.

Оценяване на следващата версия на Lara

Приложихме същия процес на оценка на EPT към алфа версията на следващия планиран модел на Lara, който се очаква през 2025 г. Това ни помогна да извършим ранна оценка на подобренията в новата версия и да сравним ефективността ѝ с текущата итерация. Проследяването на този прогрес ни дава ценна представа за това как Lara се развива към по-висока точност на превода.

Резултати

Резултатите от EPT показват постоянното подобрение на Lara в намаляването на грешките при превод в различни области. Резултатите ясно отразяват прогреса на Lara към езиково уеднаквяване.

Езикът е най-важният фактор в човешката еволюция. Чрез езика можем да се разбираме и да работим заедно, за да изградим по-добро бъдеще. Сложността на езика ни е позволила да се развиваме по-бързо от всеки друг вид живи същества.

Като даваме възможност на всеки да разбира и да бъде разбран на родния си език, ние отключваме следващия етап от човешката еволюция. Вярваме в хората.