تقييم شامل لقدرات Lara في الترجمة
لتقييم أداء Lara، ترجمنا 300 جملة من اللغة الإنجليزية إلى اللغات الأكثر شيوعًا المطلوبة في التوطين باستخدام Lara وأنظمة ترجمة آلية مختلفة. ثم طلبنا من مترجمين محترفين تقييم دقة كل ترجمة. بالإضافة إلى ذلك، طلبنا من المترجمين المحترفين الإبلاغ عن الأخطاء في ترجمات Lara وكذلك في الترجمات التي قام بها زملاؤهم - على وجه التحديد أولئك الذين يندرجون في المستوى المتوسط وأفضل 1% من شبكتنا من المترجمين المحترفين.
تقييم دقة Lara مقابل أنظمة الترجمة الآلية الأخرى
* النسبة المئوية للوقت التي اتفق فيها 2 على الأقل من بين 3 مترجمين محترفين على أن الترجمة كانت دقيقة في 2700 ترجمة من اللغة الإنجليزية إلى اللغات الإيطالية والفرنسية والإسبانية والألمانية والبرتغالية واليابانية والصينية والروسية والكورية.
صممنا هذا التقييم لمقارنة أداء مختلف محركات الترجمة الآلية باستخدام محتوى واقعي على مستوى المؤسسات. تضمنت مجموعة الاختبارات الخاصة بنا 2700 جملة، تتكون من 300 جملة مصدر باللغة الإنجليزية مترجمة بواسطة أنظمة الترجمة الآلية إلى تسع اللغات الأكثر طلبًا في مجال التوطين: الإيطالية والفرنسية والإسبانية والألمانية والبرتغالية واليابانية والصينية والروسية والكورية. وتم تقييم دقة هذه الترجمات التي تم إنشاؤها آليًا بدقة متناهية بواسطة مترجمين محترفين تم اختيارهم بعناية لإجراء عملية المراجعة. ولضمان الموضوعية والقضاء على التحيز، استخدمنا طريقة التعمية المزدوجة: لم يكن المراجعون على دراية بمحرك الترجمة الآلية الذي أنتج كل ترجمة، ولم يتم إبلاغهم بتقييمات المراجعين الآخرين. وسمح هذا النهج بإجراء تقييم غير متحيز وعادل لأداء كل نظام.
إعداد التقييم
اخترنا 300 جملة واقعية من مشاريع ترجمة جارية عبر ثلاث صناعات: السياحة والمالية والتقنية. وركز التقييم على قياس دقة نماذج الترجمة الآلية التالية:
- Lara
- Google Translate
- DeepL
- GPT-4o من OpenAI (باستخدام نهج تعليمي من 5 أمثلة، والذي يتضمن تقديم خمسة أمثلة للترجمة ضمن المطالبة لتوجيه وتعزيز أداء ترجمة النموذج)
عملية التقييم
اختيار المترجمين المحترفين
لتقييم جودة الترجمة، اخترنا أفضل المترجمين المحترفين من حيث الأداء من شبكة تضم 500 ألف مترجم باستخدام T-Rank، وهو نظام تصنيف مدعوم بالذكاء الاصطناعي طورته Translated. ويساعد نظام T-Rank في اختيار أفضل المترجمين المحترفين من حيث الأداء المؤهلين للمجال المحدد من خلال تقييم أدائهم وخبراتهم السابقة بناءً على أكثر من 30 معيارًا. وقد ضمن ذلك أن المترجمين الذين تم اختيارهم للتقييم كانوا متحدثين أصليين مؤهلين تأهيلاً عالياً للغات الهدف.
التقييم البشري
تم تكليف ثلاثة مترجمين محترفين ناطقين باللغات الأم بشكل مستقل بمراجعة كل جملة مترجمة لكل لغة هدف. ولم يكن المترجمون على علم بالنموذج الذي أنتج الترجمات، مما يضمن الحصول على تقييم غير متحيز.
اتفاق الأغلبية
عندما يتعفق اثنان على الأقل من ثلاثة مترجمين على أن الترجمة كانت مناسبة للاستخدام المهني، يُمنح النموذج نقطة واحدة عن تلك الجملة. وقللت هذه الطريقة من الذاتية وأكدت على الإجماع.
منهجية احتساب النقاط
تمثل النتيجة النهائية لكل محرك النسبة المئوية للحالات التي وافق فيها معظم المُقيّمين على الترجمة. ويعكس هذا النهج اتساق وموثوقية كل نموذج من نماذج الترجمة الآلية في ترجمة المحتوى الاحترافي.
النتائج
تعرض الرسوم البيانية أدناه أداء محركات الترجمة الآلية الأربعة في المجالات الثلاثة. وأظهرت Lara دقة أعلى بنسبة 65%، بينما حصلت النماذج الأخرى، بما في ذلك Google Translate وDeepL وGPT-4، على درجات تتراوح بين 54% و58%. وتُظهر هذه النتائج أداء Lara المتفوق باستمرار عبر المجالات.
* النسبة المئوية للوقت التي اتفق فيها 2 على الأقل من بين 3 مترجمين محترفين على أن الترجمة كانت دقيقة في 2700 ترجمة من اللغة الإنجليزية إلى اللغات الإيطالية والفرنسية والإسبانية والألمانية والبرتغالية واليابانية والصينية والروسية والكورية.
تقييم دقة Lara مقارنة بالمترجمين المحترفين
* النسبة المئوية للوقت التي اتفق فيها 2 على الأقل من بين 3 مترجمين محترفين على أن الترجمة كانت دقيقة في 2700 ترجمة من اللغة الإنجليزية إلى اللغات الإيطالية والفرنسية والإسبانية والألمانية والبرتغالية واليابانية والصينية والروسية والكورية.
نتتبع تقدم Lara من خلال التقييم البشري المنتظم. ويتمثل أحد المقاييس الأساسية التي نستخدمها في عدد الأخطاء لكل ألف كلمة (EPT أو EPTW). ويساعدنا هذا المقياس في تقييم دقة الترجمة من خلال حساب عدد الأخطاء لكل ألف كلمة من المحتوى المترجم. وباستخدام عدد الأخطاء لكل ألف كلمة، يمكننا قياس أداء Lara بموضوعية وتحديد مجالات التحسين.
إعداد التقييم
ركزنا في هذا التقييم على المحتوى الذي ينشئه المستخدم، بما في ذلك المحادثات والتقييمات وأوصاف المنتجات. وترجمنا المحتوى باستخدام Lara واستعنّا كذلك بمترجمين محترفين تم اختيارهم من المستوى المتوسط وأفضل 1 في المائة من مترجمي شبكتنا لترجمة المحتوى نفسه دون استخدام أي ترجمة آلية. وتمت مراجعة جميع الترجمات لاحقًا بواسطة مترجمين محترفين تم اختيارهم خصيصًا لعملية المراجعة من أجل إبراز أخطاء الترجمة.
عملية التقييم
اختيار المحتوى
اخترنا مجموعة متنوعة من المواد التي أنشأها المستخدمون، بما في ذلك نصوص المحادثات وتقييمات العملاء والأوصاف التفصيلية للمنتجات، لتقييم أداء الترجمة بشكل شامل عبر أنواع المحتوى المختلفة.
الترجمة
تمت ترجمة المحتوى المحدد أولاً باستخدام Lara. وبالتوازي مع ذلك، استعنّا بمترجمين محترفين من شبكتنا لترجمة مجموعة المحتوى نفسها دون مساعدة أي أدوات ترجمة آلية. وتم اختيار هؤلاء المترجمين بعناية من بين أصحاب الأداء المتوسط وأفضل 1 في المائة لضمان تمثيل واسع لجودة الترجمة البشرية.
اكتشاف الأخطاء
بغض النظر عن الطريقة المستخدمة، خضعت جميع الترجمات لعملية مراجعة صارمة أجراها فريق منفصل من المترجمين المحترفين. وتم اختيار هؤلاء المراجعين تحديدًا لخبراتهم وتم تكليفهم بمهمة إبراز أخطاء الترجمة دون معرفة مصدر الترجمات. وتضمنت هذه الأخطاء مشكلات مثل الأخطاء النحوية والترجمات الخاطئة والحذف. وتم تطبيق هذه الخطوة باستمرار على ترجمات Lara والترجمات الاحترافية.
حساب عدد الأخطاء لكل ألف كلمة
تم حساب متوسط درجة عدد الأخطاء لكل ألف كلمة عن طريق الجمع بين النتائج عبر ترجمات متعددة. وتمثل هذه النتيجة تكرار الأخطاء وتسمح لنا بمراقبة التحسينات في أداء Lara.
تقييم الإصدار التالي من Lara
طبقنا عملية تقييم عدد الأخطاء لكل ألف كلمة نفسها على نموذج ألفا لنموذج Lara المخطط التالي، المتوقع في عام 2025. وقد ساعدنا ذلك في قياس التحسينات المبكرة في الإصدار الجديد ومقارنة أدائه بالتكرار الحالي. ويمنحنا تتبع هذا التقدم نظرة ثاقبة قيمة عن كيفية تقدم Lara نحو تقديم دقة ترجمة أعلى.
النتائج
تُظهر نتائج عدد الأخطاء لكل ألف كلمة التحسن المطرد الذي تحققه Lara في تقليل أخطاء الترجمة عبر مجالات متعددة. وتعكس النتائج بوضوح تقدم Lara نحو التفرد اللغوي.
كانت اللغة العامل الأهم في التطور البشري. ومن خلال اللغة، يمكننا فهم بعضنا البعض والعمل معًا لبناء مستقبل أفضل. وقد مكنتنا اللغة المعقدة من التقدم بوتيرة أسرع من أي نوع آخر.
من خلال تمكين الجميع من الفهم وأن يكونوا مفهومين بلغاتهم الأصلية، فإننا نطلق العنان للمرحلة التالية من التطور البشري. ونحن نؤمن بالبشر.