Комплексная оценка возможностей Lara в области переводов

Чтобы оценить эффективность нашего инструмента, мы перевели 300 предложений с английского на наиболее востребованные для локализации языки с помощью Lara и других систем. Затем мы попросили профессиональных лингвистов оценить точность каждого перевода. Кроме того, они отметили ошибки в результатах Lara, а также в переводах своих коллег — лингвистов среднего уровня и тех, кто относится к категории ведущих специалистов (1% от нашей сети профессиональных переводчиков).

Оценка точности Lara в сравнении с другими системами машинного перевода

Lara — выбор профессиональных переводчиковКачество* (%)40%30%60%50%70%80%Финансовая деятельностьТехнологииТуризм ОбщаяLaraOpenAI’s GPT-4oGoogle TranslateDeepL

*Процент случаев, в которых по крайней мере 2 из 3 профессиональных лингвистов подтвердили точность перевода 2700 предложений с английского на итальянский, французский, испанский, немецкий, португальский, японский, китайский, русский и корейский языки.

Мы разработали эту оценку с использованием реального корпоративного контента, чтобы сравнить показатели эффективности различных систем машинного перевода. Тестовый набор состоял из 2700 предложений, а именно из 300 английских фраз, переведенных на девять самых распространенных с точки зрения локализации языков: итальянский, французский, испанский, немецкий, португальский, японский, китайский, русский и корейский. Оценка точности машинных переводов была проведена специально отобранными профессиональными лингвистами. Чтобы обеспечить объективность и непредвзятость, использовался двойной слепой метод: редакторы не знали, с помощью какой системы был выполнен каждый перевод, и были не в курсе предпочтений других лингвистов. Такой подход позволил нам справедливо оценить эффективность каждой системы.

Подготовка к оценке

Мы отобрали 300 реальных предложений из текущих проектов в трех отраслях: туризм, финансы и технологии. Целью оценки являлось измерение точности результатов следующих языковых моделей:

  • Lara,
  • Google Переводчик,
  • DeepL,
  • GPT-4o от OpenAI (с применением подхода к обучению на основе подсказок, предусматривающего предоставление пяти примеров перевода для повышения эффективности модели).

Процедура оценки

Отбор профессиональных переводчиков

Для оценки качества перевода мы отобрали лучших специалистов из сети, насчитывающей 500 000 лингвистов, с помощью разработанной Translated системы ранжирования на базе ИИ под названием T-Rank. Этот инструмент помогает нам находить профессионалов на основе их показателей работы и опыта, с учетом более чем 30 критериев. Использование T-Rank позволило гарантировать, что отобранные для оценки переводчики являются высококвалифицированными носителями языка.

Оценка экспертами

Три профессиональных лингвиста — носителя языка, отобранные с помощью нашего инструмента, были назначены для проверки предложений, переведенных на каждый из рассматриваемых языков. Тот факт, что специалисты не знали, какая именно модель выполнила перевод, позволил обеспечить беспристрастную оценку.

Мнение большинства

Если по крайней мере два из трех лингвистов соглашались с тем, что перевод подходит для профессионального использования, модель получала один балл за конкретное предложение. Этот метод позволил снизить субъективность и продемонстрировать консенсус.

Метод подсчета баллов

Финальный результат для каждой системы — это процент случаев, в которых перевод был одобрен большинством лингвистов. Такой подход позволяет продемонстрировать, насколько последовательными и надежными являются результаты каждой языковой модели.

Результаты

На диаграммах ниже приведены показатели эффективности четырех систем машинного перевода в трех областях. Lara продемонстрировала более высокую точность с результатом 65%, в то время как другие модели, включая Google Переводчик, DeepL и GPT-4, набрали от 54 до 58%. Эти результаты указывают на неизменно высокую эффективность Lara в различных областях.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEКачество* (%)50%40%70%60%80%90%Финансовая деятельностьТехнологииТуризм Общая
EN → ESКачество* (%)60%40%100%80%Финансовая деятельностьТехнологииТуризм Общая
EN → FRКачество* (%)40%30%60%50%70%80%Финансовая деятельностьТехнологииТуризм Общая
EN → ITКачество* (%)40%20%100%80%60%Финансовая д�еятельностьТехнологииТуризм Общая
EN → JAКачество* (%)50%30%90%70%Финансовая деятельностьТехнологииТуризм Общая
EN → KOКачество* (%)40%20%80%60%Финансовая деятельностьТехнологииТуризм Общая
EN → PTКачество* (%)40%20%100%80%60%Фи�нансовая деятельностьТехнологииТуризм Общая
EN → RUКачество* (%)20%0%80%60%40%Финансовая деятельност�ьТехнологииТуризм Общая
EN → ZHКачество* (%)40%30%60%50%70%80%Финансовая деятельностьТехнологииТуризм Общая

*Процент случаев, в которых по крайней мере 2 из 3 профессиональных лингвистов подтвердили точность перевода 2700 предложений с английского на итальянский, французский, испанский, немецкий, португальский, японский, китайский, русский и корейский языки.

Оценка точности Lara в сравнении с результатами профессиональных лингвистов

Наш прогресс на пути к языковой сингулярностиЯнварь 2024 г.Январь 2025 г.Language SingularityСтандартная система машинного переводаLara Grande012610842LaraПрофессиональный переводчик среднего уровня1% лучших профессиональных переводчиковErrors per 1,000 Words *

*Процент случаев, в которых по крайней мере 2 из 3 профессиональных лингвистов подтвердили точность перевода 2700 предложений с английского на итальянский, французский, испанский, немецкий, португальский, японский, китайский, русский и корейский языки.

Мы отслеживаем прогресс Lara с помощью той же системы, которую мы используем для оценки стандартных переводов, выполненных человеком. Одним из основных показателей является количество ошибок на тысячу слов переведенного контента (EPT или EPTW). Это достаточно эффективный способ определения точности перевода. С помощью EPT мы можем объективно оценить показатели Lara и понять, что необходимо улучшить.

Подготовка к оценке

В основу оценки лег такой пользовательский контент, как переписка в чате, отзывы и описания продуктов. Мы перевели тексты с помощью Lara, а затем попросили профессиональных лингвистов среднего уровня и тех, кто относится к категории ведущих специалистов (1% от нашей сети), перевести тот же контент без использования машинного перевода. Впоследствии все результаты были проверены специально отобранными профессиональными лингвистами.

Процедура оценки

Отбор контента

Мы отобрали широкий спектр пользовательских материалов, включая переписки в чате, отзывы клиентов и подробные описания продуктов, чтобы провести комплексную оценку эффективности перевода разных типов контента.

Перевод

Выбранный контент был сначала переведен с помощью Lara. Параллельно мы попросили профессиональных лингвистов из нашей сети перевести тот же набор предложений без использования автоматических инструментов. Переводчики были тщательно отобраны из числа исполнителей среднего уровня и специалистов, которые входят в категорию 1% лучших. Это позволило нам учесть несколько уровней качества перевода, выполняемого человеком.

Обнаружение ошибок

Все результаты, независимо от используемого метода, прошли строгий процесс проверки, выполненной отдельной командой профессиональных лингвистов. Этим специально отобранным опытным редакторам было поручено выявить проблемы в переводах, не зная их источника. Речь шла о грамматических ошибках, неверном толковании, упущениях и т. д. Данная проверка распространялась как на результаты, полученные с помощью Lara, так и на переводы профессиональных лингвистов.

Расчет EPT

Показатель EPT был усреднен путем объединения результатов по нескольким переводам. Эта оценка отражает частоту ошибок и позволяет нам отслеживать повышение эффективности Lara.

Оценка следующей версии Lara

Мы применили тот же процесс расчета EPT к альфа-модели следующей версии Lara, которую планируется выпустить в 2025 году. Это помогло нам провести раннюю оценку улучшений в новой версии и сравнить ее производительность с текущей итерацией. Отслеживание прогресса дает нам полезную информацию о том, как Lara двигается к более высокому качеству перевода.

Результаты

Показатели EPT демонстрируют устойчивое улучшение Lara, проявляющееся в снижении ошибок в нескольких областях. Эти результаты явно указывают на движение модели в сторону языковой сингулярности.

Язык сыграл важнейшую роль в эволюции человечества. Он позволяет нам понимать друг друга и вместе строить лучшее будущее. Сложность языка позволила нам развиваться быстрее, чем любой другой вид.

Давая возможность каждому понимать говорящих на другом языке и быть понятым, мы выводим человечество на новый этап эволюции. Мы верим в людей.