Lara 翻譯能力全面評估

為了評估 Lara 的表現,我們使用了 Lara 和多個機器翻譯系統,將 300 個句子從英文翻譯成最常在地化的語言。然後,我們請專業譯者評估每個譯文的準確性。此外,我們要求專業譯者標記出 Lara 譯文中的錯誤,同時也標出其他譯者所犯的錯誤,特別是在一般水準以上與該領域前 1% 的專業譯者。

評估和比較 Lara 與其他機器翻譯系統的準確性

專業譯者首選 Lara品質* (%)40%30%60%50%70%80%金融科技旅遊一般LaraOpenAI’s GPT-4oGoogle TranslateDeepL

* 至少 3 位專業譯者中有 2 位同意譯文有高正確度的百分比,審查的文字包括 2,700 筆從英文譯成下列語言的譯文:義大利文、法文、西班牙文、德文、葡萄牙文、日文、中文、俄文和韓文。

我們運用真實的企業級別內容設計出這項評估,目的是為了比較各種機器翻譯引擎的表現。我們的測試匯集了 2,700 個句子,其中包含 300 句英文原文,由機器翻譯系統翻譯成九種最常在地化的語言:義大利文、法文、西班牙文、德文、葡萄牙文、日文、中文、俄文和韓文。我們嚴格地挑選了數名專業譯者組成審核團隊,審慎評估機器產出的譯文,分析其準確性。為了確保客觀並避免偏見,我們採取了雙盲評估機制:審核人並不知道譯文是來自哪個機器翻譯引擎,也不會知道其他審核人的評估結果。透過這種方法,我們得以公平且不偏頗地評估每個系統的表現。

評估準備

我們從旅遊、金融與科技三個產業的翻譯專案中,選出 300 句實際案例中的句子。該評估主要衡量以下機器翻譯模型的準確性:

  • Lara
  • Google Translate
  • DeepL
  • OpenAI 的 GPT-4o(使用 5 次學習法,透過在提示中給出五個譯文範例,有效引導並提高該模型的翻譯表現)

評估流程

挑選專業譯者

為了評估翻譯品質,我們使用 Translated 開發的 AI 排名系統 T-Rank,從 50 萬名譯者中挑選出表現最佳的專業譯者。T-Rank 根據 30 多個標準,評估譯者過去的表現和專業知識,嚴選出表現優異、具備特定資歷的專業譯者。這樣的篩選機制確保負責評估工作的譯者都具備高度專業,而且都是目標語言的母語者。

人工評估

我們分別指派了三位專業的母語譯者,負責逐句審核各種目標語言的譯文。為了確保評估流程的公正性,譯者並不知道譯文是由哪個模型產出的。

多數決

若三位譯者中有兩人同意譯文達到專業水準,該模型就會因為該譯文獲得一分。這種方法減少了譯者的主觀看法,並強調對譯文品質的共識。

評分方法

每個翻譯引擎的最終分數,代表著多數評估者核准譯文的比例。這種方法反映出每個機器翻譯模型在翻譯專業內容時的一致性和可靠性。

結果

下圖顯示了四個機器翻譯引擎在這三個領域中的翻譯表現。Lara 展現出較高的準確性,獲得 65% 的分數;相較之下,Google Translate、DeepL 和 GPT-4 等其他模型的得分則在 54% 至 58% 之間。這些結果證明,Lara 在各個領域的翻譯表現都比較出色。

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DE品質* (%)50%40%70%60%80%90%金融科技旅遊一般
EN → ES品質* (%)60%40%100%80%金融科技旅遊一般
EN → FR品質* (%)40%30%60%50%70%80%金融科技旅遊一般
EN → IT品質* (%)40%20%100%80%60%金融科技旅遊一般
EN → JA品質* (%)50%30%90%70%金融科技旅遊一般
EN → KO品質* (%)40%20%80%60%金融科技旅遊一般
EN → PT品質* (%)40%20%100%80%60%金融科技旅遊一般
EN → RU品質* (%)20%0%80%60%40%金融科技旅遊一般
EN → ZH品質* (%)40%30%60%50%70%80%金融科技旅遊一般

* 至少 3 位專業譯者中有 2 位同意譯文有高正確度的百分比,審查的文字包括 2,700 筆從英文譯成下列語言的譯文:義大利文、法文、西班牙文、德文、葡萄牙文、日文、中文、俄文和韓文。

評估 Lara 對比專業譯者的譯文準確性

我們正逐步邁向語言奇點2024 年 1 月2025 年 1 月Language Singularity典型的機器翻譯系統Lara Grande012610842Lara中階專業譯者前 1% 的專業譯者每 1,000 字的錯誤率 *

* 至少 3 位專業譯者中有 2 位同意譯文有高正確度的百分比,審查的文字包括 2,700 筆從英文譯成下列語言的譯文:義大利文、法文、西班牙文、德文、葡萄牙文、日文、中文、俄文和韓文。

我們定期透過人工評分機制,追蹤 Lara 進步的狀況。我們使用的其中一項指標是每千字錯誤數(EPT 或 EPTW)。該指標透過計算每千字譯文的錯誤數量,幫助我們評估譯文的準確性。透過 EPT,我們可以客觀地衡量 Lara 的表現,並找出需要改進的地方。

評估準備

在這次的評估中,我們主要針對使用者生成內容,包括對話、評價和產品介紹。我們使用 Lara 翻譯內容,並從我們的合作譯者中,選出表現達到中位數和前 1% 的專業譯者,請他們在不使用機器翻譯的情況下翻譯相同的內容。之後,所有的譯文再經過嚴選的專業譯者審核,找出譯文中的錯誤。

評估流程

內容選擇

我們選擇了多種使用者生成內容,包括對話的文字紀錄、客戶評價和詳細的產品介紹,全面評估 Lara 在翻譯不同內容類型時的表現。

翻譯

所選內容先經由 Lara 翻譯。同時,我們請合作的專業譯者,在沒有機器翻譯工具的協助下,翻譯相同的內容。這些譯者是從表現達到中位數和前 1% 的譯者中精心挑選出來的,能廣泛代表人工翻譯的品質。

錯誤偵測

無論使用哪種翻譯方法,所有譯文都經過獨立的專業譯者團隊嚴格審核。我們特別挑選出這批專業的審核人員,由他們在不知道譯文來源的情況下負責標出譯文的錯誤。這些錯誤包括文法錯誤、翻譯錯誤和遺漏等問題。無論是 Lara 或專業譯者的譯文都經過了相同的審核步驟。

計算 EPT

合併多個譯文的結果之後,我們計算出 EPT 分數。這個分數代表錯誤率,讓我們能夠監控 Lara 的表現以及改善的情況。

評估下一代的 Lara

我們也透過同樣的 EPT 評估流程,針對預計在 2025 年推出的 Lara 內部測試版進行評估。這種評估方式能幫助我們衡量新版本的初期改善狀況,並將新版本的表現與目前的版本相互比較。追蹤模型改善的狀況能為我們提供寶貴且深入的資訊,藉此我們就能洞悉 Lara 如何逐漸提升翻譯的準確性。

結果

EPT 結果顯示,Lara 在多個領域的翻譯錯誤率穩定下降。這項結果清楚地反映出 Lara 正逐步邁向語言奇點。

語言一直是人類演化最重要的因素。借助語言,我們可以相互理解、攜手前進,共創美好的未來。複雜的語言使我們能比其他物種更快速地演化。

透過協助所有人以母語交流、互相理解,我們正在開啟人類演化的下一個篇章。我們相信人的力量。