การประเมินความสามารถในการแปลของ Lara อย่างครอบคลุม

เราให้ Lara กับ MT ต่างๆ แปลภาษาอังกฤษ 300 ประโยคเป็นภาษาที่ต้องการแปลกันมากที่สุด เพื่อประเมินประสิทธิภาพของ Lara จากนั้นก็ขอให้นักแปลมืออาชีพประเมินความถูกต้องของการแปลแต่ละประโยค นอกจากนี้ เรายังขอให้นักแปลมืออาชีพแจ้งข้อผิดพลาดในการแปลของ Lara พร้อมกับการแปลของเพื่อนร่วมงาน โดยเฉพาะนักแปลระดับกลางและระดับชั้นนำ 1% ของเครือข่ายนักแปลมืออาชีพของเรา

การประเมินความแม่นยำของ Lara เทียบกับระบบ MT อื่นๆ

นักแปลมืออาชีพต่างเลือกใช้ Laraคุณภาพ* (%)40%30%60%50%70%80%การเงินเทคโนโลยีการท่องเที่ยวทั่วไปLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* สัดส่วนร้อยละที่นักแปลมืออาชีพอย่างน้อย 2 ใน 3 คนเห็นพ้องกันว่าคำแปลนั้นถูกต้อง เมื่อพิจารณาจากงานแปล 2,700 คำที่แปลจากภาษาอังกฤษเป็นอิตาลี ฝรั่งเศส สเปน เยอรมนี โปรตุเกส ญี่ปุ่น จีน รัสเซีย และเกาหลี

เราออกแบบการประเมินนี้เพื่อเปรียบเทียบประสิทธิภาพของเครื่องมือแปลภาษาอัตโนมัติต่างๆ ด้วยเนื้อหาระดับองค์กรในโลกจริง โดยให้ระบบการแปลอัตโนมัติทำชุดทดสอบ 2,700 ประโยค ซึ่งประกอบด้วยต้นฉบับภาษาอังกฤษ 300 ประโยค แปลเป็นภาษาท้องถิ่นที่มีการขอบ่อยที่สุด 9 ภาษา ได้แก่ อิตาลี ฝรั่งเศส สเปน เยอรมนี โปรตุเกส ญี่ปุ่น จีน รัสเซีย และเกาหลี จากนั้นจึงให้นักแปลมืออาชีพที่เราคัดสรรมาประเมินอย่างรอบคอบว่าการแปลอัตโนมัติเหล่านี้ถูกต้องมากน้อยแค่ไหน เราใช้วิธีประเมินแบบอำพรางทั้ง 2 ฝ่ายเพื่อความเป็นกลางและขจัดอคติ โดยผู้ตรวจสอบจะไม่ทราบว่าเครื่องมือแปลภาษาใดแปลประโยคไหนบ้าง และผู้ตรวจสอบคนอื่นประเมินว่าอย่างไร แนวทางนี้ช่วยให้สามารถประเมินประสิทธิภาพของแต่ละระบบได้อย่างเป็นกลางและเป็นธรรม

การตั้งระบบการประเมิน

เราเลือกประโยคที่ใช้กันจริง 300 ประโยคจากโครงการแปลที่ดำเนินการอยู่ใน 3 อุตสาหกรรม ได้แก่ การท่องเที่ยว การเงิน และเทคโนโลยี โดยเน้นไปที่การวัดความถูกต้องของโมเดลการแปลอัตโนมัติดังต่อไปนี้

  • Lara
  • Google Translate
  • DeepL
  • GPT-4o ของ OpenAI (ใช้แนวทางการเรียนรู้ 5 ครั้ง ซึ่งจะใส่ตัวอย่างคำแปล 5 ประโยคลงในพรอมท์เพื่อเป็นแนวทางและเพิ่มประสิทธิภาพการแปลของโมเดล)

ขั้นตอนการประเมิน

การคัดสรรนักแปลมืออาชีพ

เราคัดเลือกนักแปลมืออาชีพที่มีประสิทธิภาพสูงสุดจากเครือข่ายนักแปล 500,000 คน โดยใช้ T-Rank ระบบจัดอันดับที่ขับเคลื่อนด้วย AI ที่ Translated พัฒนาขึ้น เพื่อประเมินคุณภาพการแปล วิธีนี้ช่วยให้เราคัดเลือกนักแปลมืออาชีพอันดับต้นๆ ที่มีคุณสมบัติตรงตามสาขาการแปล โดยดูจากประสิทธิภาพและความเชี่ยวชาญที่ผ่านมาในกว่า 30 เกณฑ์ ซึ่งทำให้มั่นใจได้ว่านักแปลที่คัดสรรมาสำหรับการประเมินผลเป็นเจ้าของภาษาปลายทางที่มีความเชี่ยวชาญสูง

การใช้คนประเมิน

เรามอบหมายให้นักแปลมืออาชีพเจ้าของภาษา 3 คนตรวจสอบแต่ละประโยคที่แปลเป็นภาษาเป้าหมายในแต่ละภาษา นักแปลจะไม่ทราบว่าประโยคที่แปลมาจากโมเดลใดบ้าง เพื่อให้แน่ใจว่าการประเมินผลมีความเป็นกลาง

ความเห็นพ้องเสียงข้างมาก

หากนักแปลอย่างน้อย 2 ใน 3 คนเห็นพ้องกันว่าคำแปลเหมาะสำหรับการใช้งานในระดับมืออาชีพ โมเดลนั้นจะได้รับ 1 คะแนนสำหรับประโยคดังกล่าว วิธีนี้ช่วยลดความคิดเห็นส่วนตัว และเน้นไปที่ความเห็นที่ตรงกัน

วิธีให้คะแนน

คะแนนสุดท้ายสำหรับแต่ละระบบจะแสดงสัดส่วนกรณีที่ผู้ประเมินส่วนใหญ่อนุมัติการแปลเป็นเปอร์เซ็นต์ ซึ่งสะท้อนให้เห็นถึงความสม่ำเสมอและความน่าเชื่อถือของ MT แต่ละโมเดลในการแปลเนื้อหาระดับมืออาชีพ

ผลลัพธ์

แผนภูมิด้านล่างแสดงประสิทธิภาพของระบบ MT ทั้ง 4 ตัวในการแปล 3 สาขา Lara พิสูจน์ให้เห็นว่ามีความถูกต้องที่สูงกว่า โดยมีคะแนน 65% ในขณะที่โมเดลอื่นๆ รวมถึง Google Translate, DeepL และ GPT-4 มีคะแนนตั้งแต่ 54% ถึง 58% ผลลัพธ์นี้แสดงให้เห็นประสิทธิภาพที่เหนือกว่าอย่างต่อเนื่องของ Lara ในทุกสาขาที่ทดสอบ

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEคุณภาพ* (%)50%40%70%60%80%90%การเงินเทคโนโลยีการท่องเที่ยวทั่วไป
EN → ESคุณภาพ* (%)60%40%100%80%การเงินเทคโนโลยีการท่องเที่ยวทั่วไป
EN → FRคุณภาพ* (%)40%30%60%50%70%80%การเงินเทคโนโลยีการท่องเที่ยวทั่วไป
EN → ITคุณภาพ* (%)40%20%100%80%60%การเงินเทคโนโลยีการท่องเที่ยวทั่วไป
EN → JAคุณภาพ* (%)50%30%90%70%การเงินเทคโนโลยีการท่องเที่ยวทั่วไป
EN → KOคุณภาพ* (%)40%20%80%60%การเงินเทคโนโลยีการท่องเที่ยวทั่วไป
EN → PTคุณภาพ* (%)40%20%100%80%60%การเงินเทคโนโลยีการท่องเที่ยวทั่วไป
EN → RUคุณภาพ* (%)20%0%80%60%40%การเงินเทคโนโลยีการท่องเที่ยวทั่วไป
EN → ZHคุณภาพ* (%)40%30%60%50%70%80%การเงินเทคโนโลยีการท่องเที่ยวทั่วไป

* สัดส่วนร้อยละที่นักแปลมืออาชีพอย่างน้อย 2 ใน 3 คนเห็นพ้องกันว่าคำแปลนั้นถูกต้อง เมื่อพิจารณาจากงานแปล 2,700 คำที่แปลจากภาษาอังกฤษเป็นอิตาลี ฝรั่งเศส สเปน เยอรมนี โปรตุเกส ญี่ปุ่น จีน รัสเซีย และเกาหลี

การประเมินความถูกต้องของ Lara เทียบกับนักแปลมืออาชีพ

ความก้าวหน้าของเราสู่ภาษาที่เป็นหนึ่งเดียวมกราคม 2024มกราคม 2025Language Singularityระบบแปลภาษาอัตโนมัติทั่วไปLara Grande012610842Laraนักแปลมืออาชีพระดับกลางนักแปลมืออาชีพชั้นนำ 1%ข้อผิดพลาดต่อ 1,000 คำ *

* สัดส่วนร้อยละที่นักแปลมืออาชีพอย่างน้อย 2 ใน 3 คนเห็นพ้องกันว่าคำแปลนั้นถูกต้อง เมื่อพิจารณาจากงานแปล 2,700 คำที่แปลจากภาษาอังกฤษเป็นอิตาลี ฝรั่งเศส สเปน เยอรมนี โปรตุเกส ญี่ปุ่น จีน รัสเซีย และเกาหลี

เราติดตามความคืบหน้าของ Lara โดยใช้คนประเมินคะแนนอย่างสม่ำเสมอ ตัวชี้วัดหลักตัวหนึ่งที่เราใช้คือข้อผิดพลาดต่อพันคำ (EPT หรือ EPTW) ตัวชี้วัดนี้ช่วยเราประเมินความถูกต้องของคำแปล โดยคำนวณจากจำนวนข้อผิดพลาดต่อเนื้อหาที่แปล 1,000 คำ EPT ช่วยเราวัดประสิทธิภาพของ Lara และระบุจุดที่ควรปรับปรุงได้อย่างเป็นกลาง

การตั้งระบบการประเมิน

การประเมินครั้งนี้เน้นไปที่เนื้อหาที่ผู้ใช้สร้างขึ้น รวมถึงแชท รีวิว และรายละเอียดผลิตภัณฑ์ เราให้ Lara แปลเนื้อหา และเกณฑ์นักแปลมืออาชีพระดับกลางและชั้นนำ 1% จากเครือข่ายของเรามาแปลเนื้อหาเดียวกันโดยไม่ใช้ระบบแปลอัตโนมัติใดเลย จากนั้นจึงนำคำแปลทั้งหมดไปให้นักแปลมืออาชีพที่คัดเลือกมาสำหรับขั้นตอนตรวจสอบโดยเฉพาะ เพื่อเน้นข้อผิดพลาดในการแปล

ขั้นตอนการประเมิน

การเลือกเนื้อหา

เราเลือกเนื้อหาที่ผู้ใช้สร้างขึ้นอย่างหลากหลาย รวมถึงข้อความแชท รีวิวจากลูกค้า และรายละเอียดผลิตภัณฑ์ เพื่อประเมินประสิทธิภาพการแปลสำหรับเนื้อหาประเภทต่างๆ อย่างครอบคลุม

การแปล

Lara จะแปลเนื้อหาที่เลือกมาก่อน ในขณะเดียวกัน เราก็ให้นักแปลมืออาชีพจากเครือข่ายของเราแปลเนื้อหาชุดเดียวกันโดยไม่ใช้ระบบแปลอัตโนมัติใดเลย นักแปลเหล่านี้ได้รับการคัดเลือกมาอย่างรอบคอบ จากกลุ่มนักแปลระดับกลางและชั้นนำ 1% เพื่อสะท้อนคุณภาพการแปลของมนุษย์อย่างครอบคลุม

การตรวจจับข้อผิดพลาด

ไม่ว่าจะแปลด้วยวิธีใด คำแปลทั้งหมดจะต้องผ่านกระบวนการตรวจสอบอย่างเข้มงวดโดยทีมนักแปลมืออาชีพแยกต่างหาก เราคัดเลือกผู้ตรวจสอบเหล่านี้จากความเชี่ยวชาญในด้านนี้โดยเฉพาะ และมอบหมายให้ตรวจข้อผิดพลาดในการแปลโดยไม่แจ้งว่าเป็นคำแปลจากที่ใด ตัวอย่างข้อผิดพลาดได้แก่ การใช้ไวยากรณ์ผิด แปลผิด และการละเว้นคำ เป็นต้น โดยตรวจสอบอย่างสม่ำเสมอ ทั้งการแปลจาก Lara และนักแปลมืออาชีพ

การคำนวณ EPT

เราคำนวณคะแนน EPT โดยเฉลี่ยผลลัพธ์จากการแปลหลายครั้ง คะแนนนี้แสดงความถี่ของข้อผิดพลาดและช่วยเราตรวจสอบพัฒนาการด้านประสิทธิภาพของ Lara

การประเมิน Lara ในเวอร์ชันถัดไป

เรานำขั้นตอนการประเมิน EPT แบบเดียวกันนี้มาใช้กับโมเดล Alpha ของ Lara รุ่นต่อไป โดยคาดว่าจะเริ่มใช้ในปี 2025 ตามแผนที่วางไว้ วิธีนี้ช่วยให้เราวัดผลการปรับปรุงเวอร์ชันใหม่ได้ตั้งแต่เริ่มแรก พร้อมเปรียบเทียบประสิทธิภาพกับเวอร์ชันปัจจุบัน การติดตามความคืบหน้านี้จะทำให้เราเข้าใจอย่างถ่องแท้ว่า Lara พัฒนาความถูกต้องในการแปลไปได้ดีแค่ไหน

ผลลัพธ์

ผล EPT แสดงให้เห็นพัฒนาการอย่างต่อเนื่องของ Lara ในการลดข้อผิดพลาดของการแปลหลายๆ สาขา ผลลัพธ์สะท้อนให้เห็นความก้าวหน้าของ Lara อย่างชัดเจน สู่ภาษาที่เป็นหนึ่งเดียว

ภาษาเป็นปัจจัยที่สำคัญที่สุดในวิวัฒนาการของมนุษย์ เราใช้ภาษาทำความเข้าใจซึ่งกันและกัน ทำงานร่วมกัน เพื่อสร้างอนาคตที่ดียิ่งขึ้น ภาษาที่ซับซ้อนช่วยให้เราก้าวหน้าได้เร็วกว่าสัตว์สายพันธุ์อื่นๆ

เรากำลังปลดล็อกวิวัฒนาการขั้นต่อไปของมนุษย์โดยช่วยให้ทุกคนเข้าใจกันและกันในภาษาแม่ของตนเอง เพราะเราเชื่อในมนุษย์