Комплексная оценка возможностей Lara в области переводов
Чтобы оценить эффективность нашего инструмента, мы перевели 300 предложений с английского на наиболее востребованные для локализации языки с помощью Lara и других систем. Затем мы попросили профессиональных лингвистов оценить точность каждого перевода. Кроме того, они отметили ошибки в результатах Lara, а также в переводах своих коллег — лингвистов среднего уровня и тех, кто относится к категории ведущих специалистов (1% от нашей сети профессиональных переводчиков).
Оценка точности Lara в сравнении с другими системами машинного перевода
*Процент случаев, в которых по крайней мере 2 из 3 профессиональных лингвистов подтвердили точность перевода 2700 предложений с английского на итальянский, французский, испанский, немецкий, португальский, японский, китайский, русский и корейский языки.
Мы разработали эту оценку с использованием реального корпоративного контента, чтобы сравнить показатели эффективности различных систем машинного перевода. Тестовый набор состоял из 2700 предложений, а именно из 300 английских фраз, переведенных на девять самых распространенных с точки зрения локализации языков: итальянский, французский, испанский, немецкий, португальский, японский, китайский, русский и корейский. Оценка точности машинных переводов была проведена специально отобранными профессиональными лингвистами. Чтобы обеспечить объективность и непредвзятость, использовался двойной слепой метод: редакторы не знали, с помощью какой системы был выполнен каждый перевод, и были не в курсе предпочтений других лингвистов. Такой подход позволил нам справедливо оценить эффективность каждой системы.
Подготовка к оценке
Мы отобрали 300 реальных предложений из текущих проектов в трех отраслях: туризм, финансы и технологии. Целью оценки являлось измерение точности результатов следующих языковых моделей:
- Lara,
- Google Переводчик,
- DeepL,
- GPT-4o от OpenAI (с применением подхода к обучению на основе подсказок, предусматривающего предоставление пяти примеров перевода для повышения эффективности модели).
Процедура оценки
Отбор профессиональных переводчиков
Для оценки качества перевода мы отобрали лучших специалистов из сети, насчитывающей 500 000 лингвистов, с помощью разработанной Translated системы ранжирования на базе ИИ под названием T-Rank. Этот инструмент помогает нам находить профессионалов на основе их показателей работы и опыта, с учетом более чем 30 критериев. Использование T-Rank позволило гарантировать, что отобранные для оценки переводчики являются высоко квалифицированными носителями языка.
Оценка экспертами
Три профессиональных лингвиста — носителя языка, отобранные с помощью нашего инструмента, были назначены для проверки предложений, переведенных на каждый из рассматриваемых языков. Тот факт, что специалисты не знали, какая именно модель выполнила перевод, позволил обеспечить беспристрастную оценку.
Мнение большинства
Если по крайней мере два из трех лингвистов соглашались с тем, что перевод подходит для профессионального использования, модель получала один балл за конкретное предложение. Этот метод позволил снизить субъективность и продемонстрировать консенсус.
Метод подсчета баллов
Финальный результат для каждой системы — это процент случаев, в которых перевод был одобрен большинством лингвистов. Такой подход позволяет продемонстрировать, насколько последовательными и надежными являются результаты каждой языковой модели.
Результаты
На диаграммах ниже приведены показатели эффективности четырех систем машинного перевода в трех областях. Lara продемонстрировала более высокую точность с результатом 65%, в то время как другие модели, включая Google Переводчик, DeepL и GPT-4, набрали от 54 до 58%. Эти результаты указывают на неизменно высокую эффективность Lara в различных областях.
*Процент случаев, в которых по крайней мере 2 из 3 профессиональных лингвистов подтвердили точность перевода 2700 предложений с английского на итальянский, французский, испанский, немецкий, португальский, японский, китайский, русский и корейский языки.