Lara 翻译能力全方位评估

为了对 Lara 的性能进行合理评估,我们利用 Lara 和各种机器翻译系统,将 300 句英文翻译成本地化项目中最热门的几种语言,然后邀请专业译员来评估每句翻译的准确性。此外,我们还将 Lara 生成的译文和人工译文(尤其是中等水平译员及排名前 1% 精英译员的译文)放在一起,请专业译员标出错误。

对比 Lara 和其他机器翻译系统的准确性

专业译员首选 Lara质量* (%)40%30%60%50%70%80%财务科技旅游业一般LaraOpenAI’s GPT-4oGoogle TranslateDeepL

* 该比例表示:2700 份从英语翻译成意大利语、法语、西班牙语、德语、葡萄牙语、日语、中文、俄语和韩语的稿件中,3 位专业译员中至少有 2 位认为译文准确表达了原文的意思。

本次评估依托真实的企业级内容素材,旨在比较不同机器翻译引擎的性能。我们要测评 2,700 个句子,其中英文原句 300 句,由机器翻译系统翻译成本地化项目中最热门的九种语言:意大利语、法语、西班牙语、德语、葡萄牙语、日语、中文、俄语和韩语。我们严选专业译员组成审校团队,对机器翻译结果的准确性进行严谨而细致的评估。为了确保评估结果客观,避免偏见,我们采用了双盲评估机制:审校员既不了解每句译文出自哪个机器翻译系统,也不知晓其他审校员的评估结果。这确保我们能够公正公平地评估每一个翻译系统的性能。

评估准备

我们从正在进行的翻译项目中挑选了 300 个真实的句子,横跨旅游、金融和科技三个行业。此次评估的主要工作是测评以下几个机器翻译模型的准确性:

  • Lara
  • Google Translate
  • DeepL
  • OpenAI 的 GPT-4o(使用 5 次学习方法,通过在提示语中给出五个译文范例,有效引导并提高该模型的翻译性能)

评估流程

挑选专业译员

我们借助 Translated 开发的人工智能排名系统 T-Rank,从 50 万名译员队伍中挑选出顶尖的专业译员来评估译文质量。T-Rank 基于 30 多项标准对译员的过往表现和专业能力进行评估,从而筛选出能力卓越且具备特定领域资质或经验的专业译员。这确保能够挑选出高素质的目标语言母语译员来担任评估工作。

人工评估

每种目标语言的每句译文均独立指派三名专业的母语译员来审校。评估过程中,译员对译文所采用的翻译模型一无所知,这保障了评估的公正性。

少数服从多数

如果三位译员中至少两位认同译文达到专业水平,则这句译文对应的模型获得一分。这种方法有效减少了主观判断的干扰,着重强调了评估过程中的共识性。

评分方法

每个翻译引擎的最终得分,均按照获得多数评估者认可的译文数量的比例来计算。这种计算方法能够反映,各个机器翻译模型在翻译专业内容时的稳定性和可靠性。

评估结果

下图体现了四大机器翻译引擎在三个行业领域的表现。Lara 展现出了更高的准确性,得分高达 65%,相比之下,Google Translate、DeepL 和 GPT-4 等其他模型的得分则处在 54% 至 58% 的范围。结果证实了 Lara 在各个领域都有比较稳定的卓越表现。

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DE质量* (%)50%40%70%60%80%90%财务科技旅游业一般
EN → ES质量* (%)60%40%100%80%财务科技旅游业一般
EN → FR质量* (%)40%30%60%50%70%80%财务科技旅游业一般
EN → IT质量* (%)40%20%100%80%60%财务科技旅游业一般
EN → JA质量* (%)50%30%90%70%财务科技旅游业一般
EN → KO质量* (%)40%20%80%60%财务科技旅游业一般
EN → PT质量* (%)40%20%100%80%60%财务科技旅游业一般
EN → RU质量* (%)20%0%80%60%40%财务科技旅游业一般
EN → ZH质量* (%)40%30%60%50%70%80%财务科技旅游业一般

* 该比例表示:2700 份从英语翻译成意大利语、法语、西班牙语、德语、葡萄牙语、日语、中文、俄语和韩语的稿件中,3 位专业译员中至少有 2 位认为译文准确表达了原文的意思。

对比 Lara 和专业译员的准确性

我们正稳步迈向语言奇点2024 年 1 月2025 年 1 月Language Singularity典型的机器翻译系统Lara Grande012610842Lara中位数专业译员排名前 1% 的专业译员Errors per 1,000 Words *

* 该比例表示:2700 份从英语翻译成意大利语、法语、西班牙语、德语、葡萄牙语、日语、中文、俄语和韩语的稿件中,3 位专业译员中至少有 2 位认为译文准确表达了原文的意思。

我们定期对 Lara 进行人工评估,从而跟踪 Lara 的性能提升情况。我们使用的主要指标之一便是每千字错误数(EPT 或 EPTW)。该指标通过计算每千字译文中的错误数,帮助我们评估译文的准确性。EPT 既可以客观地衡量 Lara 的性能,又有助于确定需要优化的具体方面。

评估准备

在此次评估中,我们以用户生成内容的翻译为主,包括聊天内容、评论和产品描述。我们使用 Lara 进行翻译,并从译员队伍中挑选出几位水平从中等到排名前 1% 的译员,要求他们在不借助任何机器翻译工具的情况下,独立完成相同内容的翻译工作。随后,所有译文均被送交至精心挑选的专业译员处进行审校,并由他们标注出其中的翻译错误。

评估流程

内容选择

为了全面评估不同类型内容的翻译表现,我们选择了多种不同的用户生成内容,包括聊天记录、客户评论和详细的产品描述。

翻译

首先,由 Lara 来翻译所选内容。 同时,我们从译员队伍中选出几位专业译员,要求他们在不借助任何机器翻译工具的情况下,独立翻译相同内容。这些译员是从中等水平或排名前 1% 的译员中精心挑选出来的,能够全面代表人工翻译的质量水平。

检查翻译错误

无论使用哪种翻译方法,所有译文都要经过另一批专业译员的严格审校。这些审校人员凭借优秀的专业能力被特别挑选出来。他们的任务是在不知道译文来源的情况下,标示出翻译错误。翻译错误包括语法错误、错译和遗漏等问题。无论是 Lara 生成的译文还是专业译员的译文,都要接受相同的审校流程。

计算 EPT 得分

EPT 得分是指不同译文的评估结果相加后计算出的平均值。这个分数能够反映错误出现的频率,便于我们追踪 Lara 性能的提升情况。

评估新一代 Lara

我们运用了同样的 EPT 评估流程,对 Lara 计划于 2025 年推出的阿尔法模型进行评估。这种评估方法有助于我们评测新版本在初期阶段的优化情况,也有助于我们开展新版本与当前版本的性能对比。我们通过跟踪该模型的优化进度,深入了解 Lara 如何逐步提高翻译的准确性。

评估结果

EPT 结果显示,Lara 在多个领域的翻译错误率稳步下降。显而易见,Lara 正稳步迈向语言的奇点。

语言在人类演化历程中始终扮演着至关重要的角色。借助语言的桥梁,我们能够彼此理解,共创美好未来。复杂的语言能力赋予了我们超越其他任何物种的发展速度。

我们正推动人类进入新的发展阶段,让每个人都能用自己的母语理解他人和被他人理解。我们对人类的能力充满信心。