הערכה מקיפה של יכולות התרגום של Lara
כדי להעריך את הביצועים של Lara, תרגמנו 300 משפטים מאנגלית לשפות הנדרשות ביותר בלוקליזציה באמצעות Lara ומערכות תרגום מכונה שונות. לאחר מכן ביקשנו ממתרגמים מקצועיים להעריך את הדיוק של כל תרגום. בנוסף, ביקשנו ממתרגמים מקצועיים לסמן שגיאות בתרגומים של Lara וכן בתרגומים שבוצעו על ידי עמיתיהם – במיוחד אלה שברמת החציון ובאחוז העליון ברשת המתרגמים המקצועיים שלנו.
הערכת הדיוק של Lara מול מערכות תרגום מכונה אחרות
* אחוז הפעמים שבהן הסכימו לפחות 2 מתוך 3 מתרגמים מקצועיים שהתרגום מדויק ב-2,700 תרגומים מאנגלית לאיטלקית, צרפתית, ספרדית, גרמנית, פורטוגזית, יפנית, סינית, רוסית וקוריאנית.
תכננו את ההערכה הזו כדי להשוות את הביצועים של מנועי תרגום מכונה שונים באמצעות תוכן אמיתי ברמה הארגונית. מערך הבדיקה שלנו הכיל 2,700 משפטים, המורכבים מ-300 משפטי מקור באנגלית שתורגמו על ידי מערכות תרגום מכונה ל-9 משפות הלוקליזציה המבוקשות ביותר: איטלקית, צרפתית, ספרדית, גרמנית, פורטוגזית, יפנית, סינית, רוסית וקוריאנית. הדיוק של תרגומ י המכונה הוערך בקפידה על ידי מתרגמים מקצועיים שנבחרו בדקדקנות לצורך תהליך הבדיקה. כדי להבטיח אובייקטיביות ולמנוע הטיה, השתמשנו בשיטת סמיות כפולה: הבודקים לא ידעו איזה מנוע תרגום מכונה הפיק כל תרגום, והם לא ידעו מה ההערכות של הבודקים האחרים. גישה זו איפשרה הערכה הוגנת וחסרת פניות של ביצועי כל מערכת.
תכנון ההערכה
בחרנו 300 משפטים אמיתיים מפרויקטים פעילים של תרגום בשלושה תחומים: תיירות, פיננסים וטכנולוגיה. ההערכה התמקדה במדידת הדיוק של המודלים הבאים של תרגום מכונה:
- Lara
- Google Translate
- DeepL
- GPT-4o של OpenAI (באמצעות גישת למידה של 5-shot, במסגרתה נותנים ב-prompt חמישה תרגומים לדוגמה כדי להנחות ולשפר את ביצועי התרגום של המודל)
תהליך ההערכה
בחירה של מתרגמים מקצועיים
כדי להעריך את איכות התרגום, בחרנו את המתרגמים המקצועיים בעלי הביצועים הטובים ביותר מתוך רשת של 500,000 מתרגמים באמצעות T-Rank – מערכת דירוג מבוססת AI שפותחה על ידי Translated. T-Rank עוזר לבחור מתרגמים מקצועיים בעלי התמחות בתחומים ה אמורים שהפגינו ביצועים גבוהים, על ידי הערכת הביצועים והמומחיות שלהם בעבר לפי יותר מ-30 קריטריונים. כך הבטחנו שהמתרגמים שנבחרו לביצוע ההערכה יהיו דוברי שפת אם מוכשרים ביותר בשפות היעד.
הערכה אנושית
שלושה מתרגמים מקצועיים דוברי שפת אם הוקצו באופן עצמאי לבדוק כל משפט מתורגם עבור כל שפת יעד. המתרגמים לא ידעו איזה מודל של תרגום מכונה יצר את התרגומים, כדי להבטיח הערכה חסרת פניות.
הסכמה ברוב קולות
אם לפחות שניים מתוך שלושה מתרגמים הסכימו שהתרגום מתאים לשימוש מקצועי, המודל קיבל נקודה אחת עבור אותו משפט. שיטה זו הפחיתה את הסובייקטיביות ושמה דגש על קונצנזוס.
מתודולוגיית הניקוד
הציון הסופי לכל מנוע מייצג את אחוז המקרים שבהם רוב המעריכים אישרו את התרגום. גישה זו משקפת את העקביות והאמינות של כל מודל תרגום מכונה בתרגום תוכן מקצועי.
תוצאות
התרשימים שלהלן מציגים את הביצועים של ארבעת מנועי תרגום המכונה בשלושת התחומים. Lara הפגינה דיוק גבוה יותר עם ציון של 65%, בעוד שמודלים אחרים, כולל Google Translate, DeepL ו-GPT-4, קיבלו ציונים שנעו בין 54% ל-58%. תוצאות אלה מדגימות את הביצועים הטובים יותר של Lara באופן עקבי בתחומים שונים.
* אחוז הפעמים שבהן הסכימו לפחות 2 מתוך 3 מתרגמים מקצועיים שהתרגום מדויק ב-2,700 תרגומים מאנגלית לאיטלקית, צרפתית, ספרדית, גרמנית, פורטוגזית, יפנית, סינית, רוסית וקוריאנית.
הערכת הדיוק של Lara בהשוואה למתרגמים מקצועיים
* אחוז הפעמים שבהן הסכימו לפחות 2 מתוך 3 מתרגמים מקצועיים שהתרגום מדויק ב-2,700 תרגומים מאנגלית לאיטלקית, צרפתית, ספרדית, גרמנית, פורטוגזית, יפנית, סינית, רוסית וקוריאנית.
אנחנו עוקבים אחר ההתקדמות של Lara באמצעות הניקוד הרגיל של מתרגמים אנושיים. אחד המדדים העיקריים שבהם אנחנו משתמשים הוא שגיאות לאלף מילים (EPT או EPTW). מדד זה עוזר לנו להעריך את דיוק התרגום על ידי חישוב מספר השגיאות לאלף מילים של תוכן מתורגם. באמצעות EPT, אנחנו יכולים למדוד באופן אובייקטיבי את הביצועים של Lara ולזהות תחומים שבהם היא טעונה שיפור.
תכנון ההערכה
בהערכה זו התמקדנו בתוכן שנוצר על ידי משתמשים, שכלל צ'אטים, ביקורות ותיאורי מוצר. תרגמנו את התוכן באמצעות Lara וגם גייסנו מתרגמים מקצועיים שנבחרו מתוך החציון והאחוזון העליון של הרשת שלנו כדי שיתרגמו את אותו התוכן ללא שימוש בתרג ום מכונה כלשהו. לאחר מכן, כל התרגומים נבדקו על ידי מתרגמים מקצועיים שנבחרו במיוחד לצורך תהליך הבדיקה כדי לציין את שגיאות התרגום.
תהליך ההערכה
בחירת התוכן
בחרנו מגוון רחב של חומרים שנוצרו על ידי משתמשים, כולל תמלילי צ'אט, ביקורות של לקוחות ותיאורי מוצר מפורטים, כדי להעריך באופן מקיף את ביצועי התרגום בסוגי תוכן שונים.
תרגום
התוכן שנבחר תורגם תחילה באמצעות Lara. במקביל, נתנו למתרגמים מקצועיים מהרשת שלנו לתרגם את אותו התוכן ללא סיוע של אף כלי תרגום מכונה. מתרגמים אלה נבחרו בקפידה מבין המבצעים החציוניים ומהאחוזון העליון כדי להבטיח ייצוג רחב של איכות התרגום האנושי.
זיהוי שגיאות
כל התרגומים, בכל שיטות התרגום, עברו תהליך ביקורת קפדני שנערך על ידי צוות נפרד של מתרגמים מקצועיים. המבקרים האלה נבחרו במיוחד בשל מומחיותם והוטל עליהם להדגיש את השגיאות בתרגום בלי לדעת את מקור התרגומים. שגיאות אלה היו בין השאר טעויות דקדוק, תרגומים שגויים והשמטות. שלב ז ה יושם באופן עקבי בתרגומים של Lara ובתרגומים המקצועיים.
חישוב EPT
ציון ה-EPT היה ממוצע התוצאות של בדיקת תרגומים רבים. ציון זה מייצג את תדירות השגיאות ומאפשר לנו לעקוב אחר השיפורים בביצועים של Lara.
הערכת הגרסה הבאה של Lara
יישמנו את אותו תהליך הערכת EPT על מודל האלפא של המודל המתוכנן הבא של Lara, הצפוי בשנת 2025. זה עזר לנו למדוד את השיפורים המוקדמים בגרסה החדשה ולהשוות את הביצועים שלה לגרסה הנוכחית. המעקב אחר ההתקדמות הזו מספק לנו תובנות חשובות לגבי האופן שבו Lara מתקדמת לעבר תרגום מדויק יותר.
תוצאות
תוצאות ה-EPT מראות את השיפור המתמיד של Lara בהפחתת שגיאות תרגום במספר רב של תחומים. התוצאות משקפות בבירור את ההתקדמות של Lara לעבר ייחודיות השפה.
השפה היא הגורם החשוב ביותר באבולוציה האנושית. באמצעות השפה אנחנו יכולים להבין אחד א ת השני ולשתף פעולה כדי לבנות עתיד טוב יותר. שפה מורכבת איפשרה לנו להתקדם מהר יותר מכל מין אחר.
כשאנחנו מאפשרים לכולם להבין ולהיות מובנים בשפת האם שלהם, אנחנו פותחים את הדלת לשלב הבא באבולוציה האנושית. אנחנו מאמינים בבני אדם.