Lara 翻译能力全方位评估

为了对 Lara 的性能进行合理评估，我们利用 Lara 和各种机器翻译系统，将 300 句英文翻译成本地化项目中最热门的几种语言，然后邀请专业译员来评估每句翻译的准确性。此外，我们还将 Lara 生成的译文和人工译文（尤其是中等水平译员及排名前 1% 精英译员的译文）放在一起，请专业译员标出错误。

对比 Lara 和其他机器翻译系统的准确性

* 该比例表示：2700 份从英语翻译成意大利语、法语、西班牙语、德语、葡萄牙语、日语、中文、俄语和韩语的稿件中，3 位专业译员中至少有 2 位认为译文准确表达了原文含义。

本次评估依托真实的企业级内容素材，旨在比较不同机器翻译引擎的性能。我们要测评 2,700 个句子，其中英文原句 300 句，由机器翻译系统翻译成本地化项目中最热门的九种语言：意大利语、法语、西班牙语、德语、葡萄牙语、日语、中文、俄语和韩语。我们严选专业译员组成审校团队，对机器翻译结果的准确性进行严谨而细致的评估。为了确保评估结果客观，避免偏见，我们采用了双盲评估机制：审校员既不了解每句译文出自哪个机器翻译系统，也不知晓其他审校员的评估结果。这确保我们能够公正公平地评估每一个翻译系统的性能。

评估准备

我们从正在进行的翻译项目中挑选了 300 个真实的句子，横跨旅游、金融和科技三个行业。此次评估的主要工作是测评以下几个机器翻译模型的准确性：

Lara
Google Translate
DeepL
OpenAI 的 GPT-4o（使用 5 次学习方法，通过在提示语中给出五个译文范例，有效引导并提高该模型的翻译性能）

评估流程

挑选专业译员

我们借助 Translated 开发的人工智能排名系统 T-Rank，从 50 万名译员队伍中挑选出顶尖的专业译员来评估译文质量。T-Rank 基于 30 多项标准对译员的过往表现和专业能力进行评估，从而筛选出能力卓越且具备特定领域资质或经验的专业译员。这确保能够挑选出高素质的目标语言母语译员来担任评估工作。

人工评估

每种目标语言的每句译文均独立指派三名专业的母语译员来审校。评估过程中，译员对译文所采用的翻译模型一无所知，这保障了评估的公正性。

少数服从多数

如果三位译员中至少两位认同译文达到专业水平，则这句译文对应的模型获得一分。这种方法有效减少了主观判断的干扰，着重强调了评估过程中的共识性。

评分方法

每个翻译引擎的最终得分，均按照获得多数评估者认可的译文数量的比例来计算。这种计算方法能够反映，各个机器翻译模型在翻译专业内容时的稳定性和可靠性。

评估结果

下图体现了四大机器翻译引擎在三个行业领域的表现。Lara 展现出了更高的准确性，得分高达 65%，相比之下，Google Translate、DeepL 和 GPT-4 等其他模型的得分则处在 54% 至 58% 的范围。结果证实了 Lara 在各个领域都有比较稳定的卓越表现。

返回 Lara 简介返回 Lara 简介

对比 Lara 和专业译员的准确性

我们定期对 Lara 进行人工评估，从而跟踪 Lara 的性能提升情况。我们使用的主要指标之一便是每千字错误数（EPT 或 EPTW）。该指标通过计算每千字译文中的错误数，帮助我们评估译文的准确性。EPT 既可以客观地衡量 Lara 的性能，又有助于确定需要优化的具体方面。

评估准备

在此次评估中，我们以用户生成内容的翻译为主，包括聊天内容、评论和产品描述。我们使用 Lara 进行翻译，并从译员队伍中挑选出几位水平从中等到排名前 1% 的译员，要求他们在不借助任何机器翻译工具的情况下，独立完成相同内容的翻译工作。随后，所有译文均被送交至精心挑选的专业译员处进行审校，并由他们标注出其中的翻译错误。

评估流程

内容选择

为了全面评估不同类型内容的翻译表现，我们选择了多种不同的用户生成内容，包括聊天记录、客户评论和详细的产品描述。

翻译

首先，由 Lara 来翻译所选内容。同时，我们从译员队伍中选出几位专业译员，要求他们在不借助任何机器翻译工具的情况下，独立翻译相同内容。这些译员是从中等水平或排名前 1% 的译员中精心挑选出来的，能够全面代表人工翻译的质量水平。

检查翻译错误

无论使用哪种翻译方法，所有译文都要经过另一批专业译员的严格审校。这些审校人员凭借优秀的专业能力被特别挑选出来。他们的任务是在不知道译文来源的情况下，标示出翻译错误。翻译错误包括语法错误、错译和遗漏等问题。无论是 Lara 生成的译文还是专业译员的译文，都要接受相同的审校流程。

计算 EPT 得分

EPT 得分是指不同译文的评估结果相加后计算出的平均值。这个分数能够反映错误出现的频率，便于我们追踪 Lara 性能的提升情况。

评估新一代 Lara

我们运用了同样的 EPT 评估流程，对 Lara 计划于 2025 年推出的阿尔法模型进行评估。这种评估方法有助于我们评测新版本在初期阶段的优化情况，也有助于我们开展新版本与当前版本的性能对比。我们通过跟踪该模型的优化进度，深入了解 Lara 如何逐步提高翻译的准确性。

评估结果

EPT 结果显示，Lara 在多个领域的翻译错误率稳步下降。显而易见，Lara 正稳步迈向语言的奇点。

返回 Lara 简介返回 Lara 简介

语言在人类演化历程中始终扮演着至关重要的角色。借助语言的桥梁，我们能够彼此理解，共创美好未来。复杂的语言能力赋予了我们超越其他任何物种的发展速度。

我们正推动人类进入新的发展阶段，让每个人都能用自己的母语理解他人和被他人理解。我们对人类的能力充满信心。

Lara 翻译能力全方位评估

对比 Lara 和其他机器翻译系统的准确性

评估准备

评估流程

挑选专业译员

人工评估

少数服从多数

评分方法

评估结果

对比 Lara 和专业译员的准确性

评估准备

评估流程

内容选择

翻译

检查翻译错误

计算 EPT 得分

评估新一代 Lara

评估结果

可翻译超过 200 种语言

最热门的语言组合