Laraの翻訳能力の包括的な評価
Laraのパフォーマンスを評価するために、Laraおよびさまざまな機械翻訳システムを使用して、300の英文をローカライズで需要の高い言語に翻訳しました。次に、プロの翻訳者に各翻訳の正確性を評価するよう依頼しました。さらに、Laraが翻訳したものと翻訳者(特に中央値レベルおよび上位1%の翻訳者)による翻訳に対し、誤りがあれば指摘するよう、専門の翻訳者に依頼しました。
Laraの正確性を他の機械翻訳システムと比較評価する
* 英語からイタリア語、フランス語、スペイン語、ドイツ語、ポルトガル語、日本語、中国語、ロシア語、韓国語への2,700件の翻訳において、プロの翻訳者3人のうち2人以上が翻訳が正確であると同意した回数の割合。
この評価は、実際のエンタープライズレベルのコンテンツを使用して、さまざまな機械翻訳エンジンのパフォーマンスを比較するために設計されました。当社のテストセットは2,700文で構成されており、英語の原文300文が機械翻訳システムによって、ローカライズで最も頻繁に求められる9言語(イタリア語、フランス語、スペイン語、ドイツ語、ポルトガル語、日本語、中国語、ロシア語、韓国語)に翻訳されています。これらの機械生成翻訳の正確性は 、審査プロセスのために厳選されたプロの翻訳者によって慎重に評価されました。客観性を確保し、バイアスを排除するために、二重盲検法を採用しました。レビュアーは、どの機械翻訳エンジンが各翻訳を作成したかを認識せず、他のレビュアーの評価を通知されませんでした。このアプローチにより、各システムのパフォーマンスを公平かつ公正に評価することができました。
評価の設定
私たちは、観光、金融、テクノロジーの3つの業界における実際の翻訳プロジェクトから、300の実用的な文を選びました。評価は、次の機械翻訳モデルの精度を測定することに焦点を当てました。
- Lara
- Google翻訳
- DeepL
- OpenAIのGPT-4o(5ショット学習アプローチを使用しています。これには、プロンプト内で5つの例の翻訳を提供して、モデルの翻訳パフォーマンスを導き、向上させることが含まれます)
評価プロセス
プロの翻訳者の選択
翻訳の品質を評価するために、Translatedが開発したAI主導のランキングシステムであるT-Rankを使用して、50万人のネットワークからパフォーマンスの高いプロの翻訳者を選択しました。T-Rankは、30以上の基準で過去のパフォーマンスと専門知識を評価することにより、最高のパフォーマンス、ドメイン資格を持つプロの翻訳者を選択するのに役 立ちます。これにより、評価のために選択された翻訳者が、対象言語の非常に有能なネイティブスピーカーであることが保証されました。
人間による評価
3人のプロのネイティブ翻訳者が独立して割り当てられ、各ターゲット言語の各翻訳された文章をレビューしました。翻訳者にどのモデルが翻訳を生成したかを知らせないことで、確実に公平な評価ができるようにしました。
多数の合意
翻訳が専門的な使用に適していることに3人の翻訳者のうち少なくとも2人が同意した場合、モデルはその文章に対して1ポイントを獲得します。この方法により主観性が低減され、合意が重視されました。
スコアリング方法
各エンジンの最終スコアは、ほとんどの評価者が翻訳を承認したケースの割合を表します。このアプローチは、各機械翻訳モデルがプロフェッショナルなコンテンツを翻訳する際の一貫性と信頼性を反映しています。
結果
以下のチャートは、3つのドメインにおける4つの機械翻訳エンジンのパフォーマンスを視覚化したものです。Laraは65%のスコアでより高い精度を示しましたが、Google Translate、DeepL、GPT-4などの他のモデルのスコアは54%から58%でした。これらの結果は、Laraのこの分野全般での一貫した優れたパ フォーマンスを示しています。
* 英語からイタリア語、フランス語、スペイン語、ドイツ語、ポルトガル語、日本語、中国語、ロシア語、韓国語への2,700件の翻訳において、プロの翻訳者3人のうち2人以上が翻訳が正確であると同意した回数の割合。
プロの翻訳者と比較したLaraの精度の評価
* 英語からイタリア語、フランス語、スペイン語、ドイツ語、ポルトガル語、日本語、中国語、ロシア語、韓国語への2,700件の翻訳において、プロの翻訳者3人のうち2人以上が翻訳が正確であると同意した回数の割合。
通常の人間のスコアリングを通じて、Laraの進捗状況を追跡します。私たちが使用する主要な指標の1つは、1000ワードあたりのエラー数(EPTまたはEPTW)です。この指標は、翻訳されたコンテンツの1,000ワードあたりのエラー数を計算することにより、翻訳精度を評価するのに役立ちます。EPTを使用すると、Laraのパフォーマンスを客観的に測定し、改善すべき分野を特定できます。
評価の設定
本評価では、チャット、レビュー、製品説明などのユーザー作成の内容に焦点を当てました。同じコンテンツを、Laraと、当社のネットワークから中央値レベルおよび上位1%のプロの翻訳者にも機械翻訳を使用せずに翻訳してもらいました。すべての翻訳は、その後、翻訳ミスを明確にするために、審査プロセスのために特別に選ばれたプロの翻訳者によって審査されました。
評価プロセス
コンテンツの選択
私たちは、翻訳パフォーマンスをさまざまなコンテンツタイプで包括的に評価するために、チャットの記録、顧客レビュー、詳細な製品説明を含む多様なユーザー作成の資料を選びました。
翻訳
選択されたコンテンツは、Laraを使用して最初に翻訳されました。並行して、ネットワークのプロの翻訳者に依頼して、機械翻訳ツールの助けを借りずに同じ一連のコンテンツを翻訳しました。これらの翻訳者は、人間の翻訳品質を代表するために、中央値のパフォーマーや上位1%の翻訳者などから幅広く、かつ慎重に選ばれました。
エラー検出
使用される方法にかかわらず、すべての翻訳は別のプロの翻訳者チームによって厳格な審査プロセスを受けました。これらのレビュー担当者は、その専門知識を評価されて特別に選ばれ、翻訳の出所を知らされないまま、翻訳エラーを指摘する任務を任されました。これらのエラーには、文法上の間違い、翻訳ミス、省略などの問題が含まれます。このステップは、Laraとプロフェッショナルな翻訳に一貫して適用されました。
EPT計算
EPTスコアは、複数の翻訳にわたる結果を組み合わせることによって平均化されました。このスコアはエラーの頻度を表し、Laraのパフォーマンスの改善を監視することができ ます。
Laraの次期バージョンの評価
2025年に予定されているLaraの次の計画モデルのアルファモデルにも同じEPT評価プロセスを適用しました。これにより、新しいバージョンの初期の改善を測定し、現行バージョンとの性能を比較することができました。この進捗状況を追跡することで、Laraがより高い翻訳精度に向けてどのように進歩しているかについての貴重な洞察を得ることができます。
結果
EPTの結果は、複数の分野にわたる翻訳エラーの削減についてLaraの着実な改善を示しています。この結果は、言語のシンギュラリティへのLaraの進歩を明確に示しています。