Lara 翻译能力全方位评估
为了对 Lara 的性能进行合理评估,我们利用 Lara 和 各种机器翻译系统,将 300 句英文翻译成本地化项目中最热门的几种语言,然后邀请专业译员来评估每句翻译的准确性。此外,我们还将 Lara 生成的译文和人工译文(尤其是中等水平译员及排名前 1% 精英译员的译文)放在一起,请专业译员标出错误。
对比 Lara 和其他机器翻译系统的准确性
* 该比例表示:2700 份从英语翻译成意大利语、法语、西班牙语、德语、葡萄牙语、日语、中文、俄语和韩语的稿件中,3 位专业译员中至少有 2 位认为译文准确表达了原文的意思。
本次评估依托真实的企业级内容素材,旨在比较不同机器翻译引擎的性能。我们要测评 2,700 个句子,其中英文原句 300 句,由机器翻译系统翻译成本地化项目中最热门的九种语言:意大利语、法语、西班牙语、德语、葡萄牙语、日语、中文、俄语和韩语。我们严选专业译员组成审校团队,对机器翻译结果的准确性进行严谨而细致的评估。为了确保评估结果客观,避免偏见,我们采用了双盲评估机制:审校员既不了解每句译文出自哪个机器翻译系统,也不知晓其他审校员的评估结果。这确保我们能够公 正公平地评估每一个翻译系统的性能。
评估准备
我们从正在进行的翻译项目中挑选了 300 个真实的句子,横跨旅游、金融和科技三个行业。此次评估的主要工作是测评以下几个机器翻译模型的准确性:
- Lara
- Google Translate
- DeepL
- OpenAI 的 GPT-4o(使用 5 次学习方法,通过在提示语中给出五个译文范例,有效引导并提高该模型的翻译性能)
评估流程
挑选专业译员
我们借助 Translated 开发的人工智能排名系统 T-Rank,从 50 万名译员队伍中挑选出顶尖的专业译员来评估译文质量。T-Rank 基于 30 多项标准对译员的过往表现和专业能力进行评估,从而筛选出能力卓越且具备特定领域资质或经验的专业译员。这确保能够挑选出高素质的目标语言母语译员来担任评估工作。
人工评估
每种目标语言的每句译文均独立指派三名专业的母语译员来审校。评估过程中,译员对译文所采用的翻译模型一无所知,这保障了评估的公正性。
少数服从多数
如果三位译员中至少两位认同译文达到专业水平,则这句译文对应的模型获得一分。这种方法有效减少了主观判断的干扰,着重强调了评估过程中的共识性。
评分方法
每个翻译引擎的最终得分,均按照获得多数评估者认可的译文数量的比例来计算。这种计算方法能够反映,各个机器翻译模型在翻译专业内容时的稳定性和可靠性。
评估结果
下图体现了四大机器翻译引擎在三个行业领域的表现。Lara 展现出了更高的准确性,得分高达 65%,相比之下,Google Translate、DeepL 和 GPT-4 等其他模型的得分则处在 54% 至 58% 的范围。结果证实了 Lara 在各个领域都有比较稳定的卓越表现。
* 该比例表示:2700 份从英语翻译成意大利语、法语、西班牙语、德语、葡萄牙语、日语、中文、俄语和韩语的稿件中,3 位专业译员中至少有 2 位认为译文准确表达了原文的意思。
对比 Lara 和专业译员的准确性
* 该比例表示:2700 份从英语翻译成意大利语、法语、西班牙语、德语、葡萄牙语、日语、中文、俄语和韩语的稿件中,3 位专业译员中至少有 2 位认为译文准确表达了原文的意思。
我们定期对 Lara 进行人工评估,从而跟踪 Lara 的性能提升情况。我们使用的主要指标之一便是每千字错误数(EPT 或 EPTW)。该指标通过计算每千字译文中的错误数,帮助我们评估译文的准确性。EPT 既可以客观地衡量 Lara 的性能,又有助于确定需要优化的具体方面。
评估准备
在此次评估中,我们以用户生成内容的翻译为主,包括聊天内容、评论和产品描述。我们使用 Lara 进行翻译,并从译员队伍中挑选出几位水平从中等到排名前 1% 的译员,要求他们在不借助任何机器翻译工具的情况下,独立完成相同内容的翻译工作。随后,所有译文均被送交至精心挑选的专业译员处进行审校,并由他们标注出其中的翻译错误。
评估流程
内容选择
为了全面评估不同类型内容的翻译表现,我们选择了多种不同的用户生成内容,包括聊天记录、客户评论和详细的产品描述。
翻译
首 先,由 Lara 来翻译所选内容。 同时,我们从译员队伍中选出几位专业译员,要求他们在不借助任何机器翻译工具的情况下,独立翻译相同内容。这些译员是从中等水平或排名前 1% 的译员中精心挑选出来的,能够全面代表人工翻译的质量水平。
检查翻译错误
无论使用哪种翻译方法,所有译文都要经过另一批专业译员的严格审校。这些审校人员凭借优秀的专业能力被特别挑选出来。他们的任务是在不知道译文来源的情况下,标示出翻译错误。翻译错误包括语法错误、错译和遗漏等问题。无论是 Lara 生成的译文还是专业译员的译文,都要接受相同的审校流程。
计算 EPT 得分
EPT 得分是指不同译文的评估结果相加后计算出的平均值。这个分数能够反映错误出现的频率,便于我们追踪 Lara 性能的提升情况。
评估新一代 Lara
我们运用了同样的 EPT 评估流程,对 Lara 计划于 2025 年推出的阿尔法模型进行评估。这种评估方法有助于我们评测新版本在初期阶段的优化情况,也有助于我们开展新版本与当前版本的性能对比。我们通过跟踪该模型的优化进度,深入了解 Lara 如何逐步提高翻译的准确性。
评估结果
EPT 结果显示,Lara 在多个领域的翻译错误率稳步下降。显而易见,Lara 正稳步迈向语言的奇点。