การประเมินความสามารถในการแปลของ Lara อย่างครอบคลุม
เราให้ Lara กับ MT ต่างๆ แปลภาษาอังกฤษ 300 ประโยคเป็นภาษาที่ต้องการแปลกันมากที่สุด เพื่อประเมินประสิทธิภาพของ Lara จากนั้นก็ขอให้นักแปลมืออาชีพประเมินความถูกต้องของการแปลแต่ละประโยค นอกจากนี้ เรายังขอให้นักแปลมืออาชีพแจ้งข้อผิดพลาดในการแปลของ Lara พร้อมกับการแปลของเพื่อนร่วมงาน โดยเฉพาะนักแปลระดับกลางและระดับชั้นนำ 1% ของเครือข่ายนักแปลมืออาชีพของเรา
การประเมินความแม่นยำของ Lara เทียบกับระบบ MT อื่นๆ
* สัดส่วนร้อยละที่นักแปลมืออาชีพอย่างน้อย 2 ใน 3 คนเห็นพ้องกันว่าคำแปลนั้นถูกต้อง เมื่อพิจารณาจากงานแปล 2,700 คำที่แปลจากภาษาอังกฤษเป็นอิตาลี ฝรั่งเศส สเปน เยอรมนี โปรตุเกส ญี่ปุ่น จีน รัสเซีย และเกาหลี
เราออกแบบการประเมินนี้เพื่อเปรียบเทียบประสิทธิภาพของเครื่องมือแปลภาษาอัตโนมัติต่างๆ ด้วยเนื้อหาระดับองค์กรในโล กจริง โดยให้ระบบการแปลอัตโนมัติทำชุดทดสอบ 2,700 ประโยค ซึ่งประกอบด้วยต้นฉบับภาษาอังกฤษ 300 ประโยค แปลเป็นภาษาท้องถิ่นที่มีการขอบ่อยที่สุด 9 ภาษา ได้แก่ อิตาลี ฝรั่งเศส สเปน เยอรมนี โปรตุเกส ญี่ปุ่น จีน รัสเซีย และเกาหลี จากนั้นจึงให้นักแปลมืออาชีพที่เราคัดสรรมาประเมินอย่างรอบคอบว่าการแปลอัตโนมัติเหล่านี้ถูกต้องมากน้อยแค่ไหน เราใช้วิธีประเมินแบบอำพรางทั้ง 2 ฝ่ายเพื่อความเป็นกลางและขจัดอคติ โดยผู้ตรวจสอบจะไม่ทราบว่าเครื่องมือแปลภาษาใดแปลประโยคไหนบ้าง และผู้ตรวจสอบคนอื่นประเมินว่าอย่างไร แนวทางนี้ช่วยให้สามารถประเมินประสิทธิภาพของแต่ละระบบได้อย่างเป็นกลางและเป็นธรรม
การตั้งระบบการประเมิน
เราเลือกประโยคที่ใช้กันจริง 300 ประโยคจากโครงการแปลที่ดำเนินการอยู่ใน 3 อุตส าหกรรม ได้แก่ การท่องเที่ยว การเงิน และเทคโนโลยี โดยเน้นไปที่การวัดความถูกต้องของโมเดลการแปลอัตโนมัติดังต่อไปนี้
- Lara
- Google Translate
- DeepL
- GPT-4o ของ OpenAI (ใช้แนวทางการเรียนรู้ 5 ครั้ง ซึ่งจะใส่ตัวอย่างคำแปล 5 ประโยคลงในพรอมท์เพื่อเป็นแนวทางและเพิ่มประสิทธิภาพการแปลของโมเดล)
ขั้นตอนการประเมิน
การคัดสรรนักแปลมืออาชีพ
เราคัดเลือกนักแปลมืออาชีพที่มีประสิทธิภาพสูงสุดจากเครือข่ายนักแปล 500,000 คน โดยใช้ T-Rank ระบบจัดอันดับที่ขับเคลื่อนด้วย AI ที่ Translated พัฒนาขึ้น เพื่อประเมินคุณภาพการแปล วิธีนี้ช่วยให้เราคัดเลือกนักแปลมืออาชีพอันดับต้นๆ ที่มีคุณสมบัติตรงตามสาขาการแปล โดยดูจากประสิทธิภาพและความเชี่ยวชาญที่ผ่านมาในกว่า 30 เกณฑ ์ ซึ่งทำให้มั่นใจได้ว่านักแปลที่คัดสรรมาสำหรับการประเมินผลเป็นเจ้าของภาษาปลายทางที่มีความเชี่ยวชาญสูง
การใช้คนประเมิน
เรามอบหมายให้นักแปลมืออาชีพเจ้าของภาษา 3 คนตรวจสอบแต่ละประโยคที่แปลเป็นภาษาเป้าหมายในแต่ละภาษา นักแปลจะไม่ทราบว่าประโยคที่แปลมาจากโมเดลใดบ้าง เพื่อให้แน่ใจว่าการประเมินผลมีความเป็นกลาง
ความเห็นพ้องเสียงข้างมาก
หากนักแปลอย่างน้อย 2 ใน 3 คนเห็นพ้องกันว่าคำแปลเหมาะสำหรับการใช้งานในระดับมืออาชีพ โมเดลนั้นจะได้รับ 1 คะแนนสำหรับประโยคดังกล่าว วิธีนี้ช่วยลดความคิดเห็นส่วนตัว และเน้นไปที่ความเห็นที่ตรงกัน
วิธีให้คะแนน
คะแนนสุดท้ายสำหรับแต่ละระบบจะแสดงสัดส่ว นกรณีที่ผู้ประเมินส่วนใหญ่อนุมัติการแปลเป็นเปอร์เซ็นต์ ซึ่งสะท้อนให้เห็นถึงความสม่ำเสมอและความน่าเชื่อถือของ MT แต่ละโมเดลในการแปลเนื้อหาระดับมืออาชีพ
ผลลัพธ์
แผนภูมิด้านล่างแสดงประสิทธิภาพของระบบ MT ทั้ง 4 ตัวในการแปล 3 สาขา Lara พิสูจน์ให้เห็นว่ามีความถูกต้องที่สูงกว่า โดยมีคะแนน 65% ในขณะที่โมเดลอื่นๆ รวมถึง Google Translate, DeepL และ GPT-4 มีคะแนนตั้งแต่ 54% ถึง 58% ผลลัพธ์นี้แสดงให้เห็นประสิทธิภาพที่เหนือกว่าอย่างต่อเนื่องของ Lara ในทุกสาขาที่ทดสอบ
* สัดส่วนร้อยละที่นักแปลมืออาชีพอย่างน้อย 2 ใน 3 คนเห็นพ้องกันว่าคำแปลนั้นถูกต้อง เมื่อพิจารณาจากงานแปล 2,700 คำที่แปลจากภาษาอังกฤษเป็นอิตาลี ฝรั่งเศส สเปน เยอรมนี โปรตุเกส ญี่ปุ่น จีน รัสเซีย และเกาหลี
การประเมินความถูกต้องของ Lara เทียบกับนักแปลมืออาชีพ
* สัดส่วนร้อยละที่นักแปลมืออาชีพอย่างน้อย 2 ใน 3 คนเห็นพ้องกันว่าคำแปลนั้นถูกต้อง เมื่อพิจารณาจากงานแปล 2,700 คำที่แปลจากภาษาอังกฤษเป็นอิตาลี ฝรั่งเศส สเปน เยอรมนี โปรตุเกส ญี่ปุ่น จีน รัสเซีย และเกาหลี
เราติดตามความคืบหน้าของ Lara โดยใช้คนประเมินคะแนนอย่างสม่ำเสมอ ตัวชี้วัดหลักตัวหนึ่งที่เราใช้คือข้อผิดพลาดต่อพันคำ (EPT หรือ EPTW) ตัวชี้ วัดนี้ช่วยเราประเมินความถูกต้องของคำแปล โดยคำนวณจากจำนวนข้อผิดพลาดต่อเนื้อหาที่แปล 1,000 คำ EPT ช่วยเราวัดประสิทธิภาพของ Lara และระบุจุดที่ควรปรับปรุงได้อย่างเป็นกลาง
การตั้งระบบการประเมิน
การประเมินครั้งนี้เน้นไปที่เนื้อหาที่ผู้ใช้สร้างขึ้น รวมถึงแชท รีวิว และรายละเอียดผลิตภัณฑ์ เราให้ Lara แปลเนื้อหา และเกณฑ์นักแปลมืออาชีพระดับกลางและชั้นนำ 1% จากเครือข่ายของเรามาแปลเนื้อหาเดียวกันโดยไม่ใช้ระบบแปลอัตโนมัติใดเลย จากนั้นจึงนำคำแปลทั้งหมดไปให้นักแปลมืออาชีพที่คัดเลือกมาสำหรับขั้นตอนตรวจสอบโดยเฉพาะ เพื่อเน้นข้อผิดพลาดในการแปล
ขั้นตอนการประเมิน
การเลือกเนื้อหา
เราเลือกเนื้อหา ที่ผู้ใช้สร้างขึ้นอย่างหลากหลาย รวมถึงข้อความแชท รีวิวจากลูกค้า และรายละเอียดผลิตภัณฑ์ เพื่อประเมินประสิทธิภาพการแปลสำหรับเนื้อหาประเภทต่างๆ อย่างครอบคลุม
การแปล
Lara จะแปลเนื้อหาที่เลือกมาก่อน ในขณะเดียวกัน เราก็ให้นักแปลมืออาชีพจากเครือข่ายของเราแปลเนื้อหาชุดเดียวกันโดยไม่ใช้ระบบแปลอัตโนมัติใดเลย นักแปลเหล่านี้ได้รับการคัดเลือกมาอย่างรอบคอบ จากกลุ่มนักแปลระดับกลางและชั้นนำ 1% เพื่อสะท้อนคุณภาพการแปลของมนุษย์อย่างครอบคลุม
การตรวจจับข้อผิดพลาด
ไม่ว่าจะแปลด้วยวิธีใด คำแปลทั้งหมดจะต้องผ่านกระบวนการตรวจสอบอย่างเข้มงวดโดยทีมนักแปลมืออาชีพแยกต่างหาก เราคัดเลือกผู้ตรวจสอบเหล่านี้จากความเชี่ยวชาญในด้านนี้โดยเฉพาะ และมอบหมายให้ตรวจข้อผิดพลาดในการแปลโดยไม่แจ้งว่าเป็นคำแปลจากที่ใด ตัวอย่างข้อผิดพลาดได้แก่ การใช้ไวยากรณ์ผิด แปลผิด และการละเว้นคำ เป็นต้น โดยตรวจสอบอย่างสม่ำเสมอ ทั้งการแปลจาก Lara และนักแปลมืออาชีพ
การคำนวณ EPT
เราคำนวณคะแนน EPT โดยเฉลี่ยผลลัพธ์จากการแปลหลายครั้ง คะแนนนี้แสดงความถี่ของข้อผิดพลาดและช่วยเราตรวจสอบพัฒนาการด้านประสิทธิภาพของ Lara
การประเมิน Lara ในเวอร์ชันถัดไป
เรานำขั้นตอนการประเมิน EPT แบบเดียวกันนี้มาใช้กับโมเดล Alpha ของ Lara รุ่นต่อไป โดยคาดว่าจะเริ่มใช้ในปี 2025 ตามแผนที่วางไว้ วิธีนี้ช่วยให้เราวัดผลการปรับปรุงเวอร์ชันใหม่ได้ตั้งแต่เริ่มแรก พร้อมเปรียบเทียบประสิทธิภาพกับเวอร์ชันปัจจุบัน การติดตามความคืบหน้านี้จะทำให้เราเข้าใจอย่างถ่องแท้ว่า Lara พัฒนาความถูกต้องในการแปลไปได้ดีแค่ไหน
ผลลัพธ์
ผล EPT แสดงให้เห็นพัฒนาการอย่างต่อเนื่องของ Lara ในการลดข้อผิดพลาดของการแปลหลายๆ สาขา ผลลัพธ์สะท้อนให้เห็นความก้าวหน้าของ Lara อย่างชัดเจน สู่ภาษาที่เป็นหนึ่งเดียว
ภาษาเป็นปัจจัยที่สำคัญที่สุดในวิวัฒนาการของมนุษย์ เราใช้ภาษาทำความเข้าใจซึ่งกันและกัน ทำงานร่วมกัน เพื่อสร้างอนาคตที่ดียิ่งขึ้น ภาษาที่ซับซ้อนช่วยให้เราก้าวหน้าได้เร็วกว่าสัตว์สายพันธุ์อื่นๆ
เรากำลังปลดล็อกวิวัฒนาการขั้นต่อไปของมนุษย์โดยช่วยให้ทุกคน เข้าใจกันและกันในภาษาแม่ของตนเอง เพราะเราเชื่อในมนุษย์