Комплексна оцінка можливостей перекладу з використанням Lara

Щоб оцінити ефективність роботи Lara, ми переклали 300 речень з англійської мови на мови, які найчастіше використовуються для локалізації, з використанням Lara та різних систем машинного перекладу. Потім ми попросили професійних перекладачів оцінити точність виконаних перекладів. Крім того, ми попросили професійних перекладачів позначити помилки в перекладах Lara та в перекладах, виконаних їхніми колегами, зокрема середньостатистичними перекладачами і перекладачами, які входять до 1% найбільш фахових професіоналів нашої мережі.

Оцінка точності перекладів Lara порівняно з іншими системами машинного перекладу

Професійні перекладачі віддають перевагу LaraЯкість* (%)40%30%60%50%70%80%ФінансиТехнологіїТуризмЗагальна тематикаLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* Відсоток часу, коли принаймні 2 з 3 професійних перекладачів погодилися, що переклад був точним у 2700 перекладах з англійської на італійську, французьку, іспанську, німецьку, португальську, японську, китайську, російську та корейську мови.

Ми розробили це оцінювання для порівняння результатів різних інструментів машинного перекладу, які було застосовано до реального контенту корпоративного рівня. Наш тестовий набір складався з 2700 речень: 300 речень оригіналу англійською було перекладено системами машинного перекладу на дев’ять найпоширеніших мов локалізації: італійську, французьку, іспанську, німецьку, португальську, японську, китайську, російську та корейську. Точність цих машинних перекладів була прискіпливо оцінена професійними перекладачами, яких ми ретельно відібрали для процесу редагування. Щоб забезпечити об’єктивність і запобігти упередженому підходу, ми використовували подвійний сліпий метод: редактори не знали, який інструмент машинного перекладу було використано і якою була оцінка іншого редактора. Такий підхід дозволив провести неупереджене та справедливе оцінювання ефективності кожної системи.

Налаштування оцінювання

Ми вибрали 300 реальних речень з активних перекладацьких проєктів у трьох галузях: туризм, фінанси та технології. Оцінювання було зосереджене на вимірюванні точності перелічених нижче моделей машинного перекладу:

  • Lara
  • Google Перекладач
  • DeepL
  • GPT-4o OpenAI (використовувався підхід до навчання за 5 кроків, який передбачає надання п’яти прикладів перекладу в підказці для підвищення ефективності результатів)

Процес оцінювання

Підбір професійних перекладачів

Щоб оцінити якість перекладу, ми вибрали найкращих фахівців із мережі з 500 000 перекладачів на основі T-Rank – системи рейтингу на базі ШІ, розробленої компанією Translated. T-Rank допомагає вибрати найкращих професійних перекладачів у певній галузі шляхом оцінювання їхньої продуктивності й компетентності за більш ніж 30 критеріями. Завдяки цьому ми могли бути певними, що перекладачі, відібрані для оцінювання, були висококваліфікованими носіями цільових мов.

Оцінювання, що виконувалося людьми

Троє професійних перекладачів-носіїв мови були окремо призначені для перевірки кожного перекладеного речення для кожної цільової мови. Перекладачі не знали, яка модель виконувала переклад, і це гарантувало неупереджену оцінку.

Згода більшості

Якщо принаймні двоє з трьох перекладачів погодилися, що переклад підходить для професійного використання, модель отримувала один бал за це речення. Цей метод мінімізував суб’єктивність підходу, оскільки він базувався на консенсусі.

Методика підрахунку балів

Остаточна оцінка для кожної моделі машинного перекладу відображала відсоток випадків, коли більшість оцінювачів схвалили переклад. Такий підхід відображає послідовність і надійність кожної моделі для перекладу професійного контенту.

Результати

Наведені нижче діаграми візуалізують продуктивність чотирьох інструментів машинного перекладу в трьох галузях. Lara продемонструвала вищу точність із результатом 65%, тоді як інші моделі, серед яких Google Перекладач, DeepL та GPT-4, мали оцінки від 54% до 58%. Ці результати демонструють незмінно високу ефективність Lara у різних сферах.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEЯкість* (%)50%40%70%60%80%90%ФінансиТехнологіїТуризмЗагальна тематика
EN → ESЯкість* (%)60%40%100%80%ФінансиТехнологіїТуризмЗагальна тематика
EN → FRЯкість* (%)40%30%60%50%70%80%ФінансиТехнологіїТуризмЗагальна тематика
EN → ITЯкість* (%)40%20%100%80%60%ФінансиТехнологіїТуризмЗагальна тематика
EN → JAЯкість* (%)50%30%90%70%ФінансиТехнологіїТуризмЗагальна тематика
EN → KOЯкість* (%)40%20%80%60%ФінансиТехнологіїТуризмЗагальна тематика
EN → PTЯкість* (%)40%20%100%80%60%Фіна�нсиТехнологіїТуризмЗагальна тематика
EN → RUЯкість* (%)20%0%80%60%40%ФінансиТехнологіїТуризмЗагальна тематика
EN → ZHЯкість* (%)40%30%60%50%70%80%ФінансиТехнологіїТуризмЗагальна тематика

* Відсоток часу, коли принаймні 2 з 3 професійних перекладачів погодилися, що переклад був точним у 2700 перекладах з англійської на італійську, французьку, іспанську, німецьку, португальську, японську, китайську, російську та корейську мови.

Оцінювання точності перекладів Lara порівняно з перекладами професійних перекладачів

Наш прогрес у досягненні мовної сингулярностіСічень 2024 р.Січень 2025 р.Language SingularityТипова система машинного перекладуLara Grande012610842LaraСередньостатистичний професійний перекладачПрофесійний перекладач, що входить в 1% найкращихКількість помилок на 1000 слів *

* Відсоток часу, коли принаймні 2 з 3 професійних перекладачів погодилися, що переклад був точним у 2700 перекладах з англійської на італійську, французьку, іспанську, німецьку, португальську, японську, китайську, російську та корейську мови.

Ми відстежуємо прогрес Lara, здійснюючи регулярні оцінювання із залученням людей. Одним з основних показників, які ми використовуємо, є кількість помилок на тисячу слів (англійська абревіатура: EPT або EPTW). Цей показник допомагає нам оцінити точність перекладу, обчисливши кількість помилок на тисячу слів перекладеного контенту. Використовуючи показник EPT, ми можемо об’єктивно вимірювати ефективність роботи Lara й визначати аспекти, які потребують удосконалення.

Налаштування оцінювання

У цьому оцінюванні ми зосередилися на контенті, створеному користувачами, зокрема чатах, відгуках та описах товарів. Ми переклали контент за допомогою Lara, а також залучили професійних перекладачів, обраних із середнього та верхнього перцентилів нашої мережі, щоб перекласти той самий контент без використання машинного перекладу. Усі переклади згодом були відредаговані професійними перекладачами, яких ми спеціально відібрали для процесу редагування й виявлення помилок у перекладі.

Процес оцінювання

Вибір контенту

Ми вибрали широкий спектр матеріалів, створених користувачами, зокрема стенограми чатів, відгуки клієнтів і детальні описи товарів, щоб комплексно оцінити ефективність перекладу для різних типів контенту.

Переклад

Вибраний контент був спочатку перекладений за допомогою Lara. Паралельно ми залучили професійних перекладачів із нашої мережі, щоб перекласти той самий набір контенту без використання інструментів машинного перекладу. Ці перекладачі були ретельно відібрані серед середньостатистичних фахівців і тих, хто входить до верхнього 1 процентиля, щоб забезпечити широке представлення якості людського перекладу.

Виявлення помилок

Незалежно від використаного методу, усі переклади пройшли ретельну перевірку, яку проводила окрема команда професійних перекладачів. Ці редактори були спеціально відібрані за рівнем експертних знань, і їм було доручено виявити помилки в перекладі. При цьому їм не повідомлялося джерело перекладу. Зокрема, редактори мали виявляти граматичні помилки, неправильні переклади чи недопрацювання. Цей крок послідовно застосовувався до перекладів, виконаних з використанням Lara, та професійних перекладів.

Розрахунок показника EPT

Показник EPT було усереднено шляхом об’єднання результатів багатьох перекладів. Ця оцінка відображає частоту помилок і дозволяє відстежувати покращення ефективності роботи Lara.

Оцінювання наступної версії Lara

Ми застосували ту саму процедуру оцінювання EPT до альфа-моделі наступної запланованої версії Lara, випуск якої очікується у 2025 році. Це допомогло нам виміряти прогнозовані покращення нової версії та порівняти її продуктивність із поточною ітерацією. Відстеження цього прогресу дає нам важливу інформацію про те, як Lara поступово вдосконалює точність перекладу.

Результати

Результати EPT демонструють стабільне вдосконалення Lara: кількість помилок у багатьох галузях зменшилася. Ці здобутки чітко відображають прогрес Lara на шляху до мовної сингулярності.

Мова була найважливішим фактором еволюції людини. Завдяки мові ми можемо розуміти одне одного та працювати разом над творенням кращого майбутнього для світу. Мова дозволила людині розвиватися швидше, ніж будь-якому іншому виду.

Даючи змогу кожному розуміти й бути зрозумілим без переходу на іншу мову, ми відкриваємо наступний етап людської еволюції. Ми віримо в людей.