การประเมินความสามารถในการแปลของ Lara อย่างครอบคลุม

เราให้ Lara กับ MT ต่างๆ แปลภาษาอังกฤษ 300 ประโยคเป็นภาษาที่ต้องการแปลกันมากที่สุด เพื่อประเมินประสิทธิภาพของ Lara จากนั้นก็ขอให้นักแปลมืออาชีพประเมินความถูกต้องของการแปลแต่ละประโยค นอกจากนี้ เรายังขอให้นักแปลมืออาชีพแจ้งข้อผิดพลาดในการแปลของ Lara พร้อมกับการแปลของเพื่อนร่วมงาน โดยเฉพาะนักแปลระดับกลางและระดับชั้นนำ 1% ของเครือข่ายนักแปลมืออาชีพของเรา

การประเมินความแม่นยำของ Lara เทียบกับระบบ MT อื่นๆ

* สัดส่วนร้อยละที่นักแปลมืออาชีพอย่างน้อย 2 ใน 3 คนเห็นพ้องกันว่าคำแปลนั้นถูกต้อง เมื่อพิจารณาจากงานแปล 2,700 คำที่แปลจากภาษาอังกฤษเป็นอิตาลี ฝรั่งเศส สเปน เยอรมนี โปรตุเกส ญี่ปุ่น จีน รัสเซีย และเกาหลี

เราออกแบบการประเมินนี้เพื่อเปรียบเทียบประสิทธิภาพของเครื่องมือแปลภาษาอัตโนมัติต่างๆ ด้วยเนื้อหาระดับองค์กรในโลกจริง โดยให้ระบบการแปลอัตโนมัติทำชุดทดสอบ 2,700 ประโยค ซึ่งประกอบด้วยต้นฉบับภาษาอังกฤษ 300 ประโยค แปลเป็นภาษาท้องถิ่นที่มีการขอบ่อยที่สุด 9 ภาษา ได้แก่ อิตาลี ฝรั่งเศส สเปน เยอรมนี โปรตุเกส ญี่ปุ่น จีน รัสเซีย และเกาหลี จากนั้นจึงให้นักแปลมืออาชีพที่เราคัดสรรมาประเมินอย่างรอบคอบว่าการแปลอัตโนมัติเหล่านี้ถูกต้องมากน้อยแค่ไหน เราใช้วิธีประเมินแบบอำพรางทั้ง 2 ฝ่ายเพื่อความเป็นกลางและขจัดอคติ โดยผู้ตรวจสอบจะไม่ทราบว่าเครื่องมือแปลภาษาใดแปลประโยคไหนบ้าง และผู้ตรวจสอบคนอื่นประเมินว่าอย่างไร แนวทางนี้ช่วยให้สามารถประเมินประสิทธิภาพของแต่ละระบบได้อย่างเป็นกลางและเป็นธรรม

การตั้งระบบการประเมิน

เราเลือกประโยคที่ใช้กันจริง 300 ประโยคจากโครงการแปลที่ดำเนินการอยู่ใน 3 อุตสาหกรรม ได้แก่ การท่องเที่ยว การเงิน และเทคโนโลยี โดยเน้นไปที่การวัดความถูกต้องของโมเดลการแปลอัตโนมัติดังต่อไปนี้

Lara
Google Translate
DeepL
GPT-4o ของ OpenAI (ใช้แนวทางการเรียนรู้ 5 ครั้ง ซึ่งจะใส่ตัวอย่างคำแปล 5 ประโยคลงในพรอมท์เพื่อเป็นแนวทางและเพิ่มประสิทธิภาพการแปลของโมเดล)

ขั้นตอนการประเมิน

การคัดสรรนักแปลมืออาชีพ

เราคัดเลือกนักแปลมืออาชีพที่มีประสิทธิภาพสูงสุดจากเครือข่ายนักแปล 500,000 คน โดยใช้ T-Rank ระบบจัดอันดับที่ขับเคลื่อนด้วย AI ที่ Translated พัฒนาขึ้น เพื่อประเมินคุณภาพการแปล วิธีนี้ช่วยให้เราคัดเลือกนักแปลมืออาชีพอันดับต้นๆ ที่มีคุณสมบัติตรงตามสาขาการแปล โดยดูจากประสิทธิภาพและความเชี่ยวชาญที่ผ่านมาในกว่า 30 เกณฑ์ ซึ่งทำให้มั่นใจได้ว่านักแปลที่คัดสรรมาสำหรับการประเมินผลเป็นเจ้าของภาษาปลายทางที่มีความเชี่ยวชาญสูง

การใช้คนประเมิน

เรามอบหมายให้นักแปลมืออาชีพเจ้าของภาษา 3 คนตรวจสอบแต่ละประโยคที่แปลเป็นภาษาเป้าหมายในแต่ละภาษา นักแปลจะไม่ทราบว่าประโยคที่แปลมาจากโมเดลใดบ้าง เพื่อให้แน่ใจว่าการประเมินผลมีความเป็นกลาง

ความเห็นพ้องเสียงข้างมาก

หากนักแปลอย่างน้อย 2 ใน 3 คนเห็นพ้องกันว่าคำแปลเหมาะสำหรับการใช้งานในระดับมืออาชีพ โมเดลนั้นจะได้รับ 1 คะแนนสำหรับประโยคดังกล่าว วิธีนี้ช่วยลดความคิดเห็นส่วนตัว และเน้นไปที่ความเห็นที่ตรงกัน

วิธีให้คะแนน

คะแนนสุดท้ายสำหรับแต่ละระบบจะแสดงสัดส่วนกรณีที่ผู้ประเมินส่วนใหญ่อนุมัติการแปลเป็นเปอร์เซ็นต์ ซึ่งสะท้อนให้เห็นถึงความสม่ำเสมอและความน่าเชื่อถือของ MT แต่ละโมเดลในการแปลเนื้อหาระดับมืออาชีพ

ผลลัพธ์

แผนภูมิด้านล่างแสดงประสิทธิภาพของระบบ MT ทั้ง 4 ตัวในการแปล 3 สาขา Lara พิสูจน์ให้เห็นว่ามีความถูกต้องที่สูงกว่า โดยมีคะแนน 65% ในขณะที่โมเดลอื่นๆ รวมถึง Google Translate, DeepL และ GPT-4 มีคะแนนตั้งแต่ 54% ถึง 58% ผลลัพธ์นี้แสดงให้เห็นประสิทธิภาพที่เหนือกว่าอย่างต่อเนื่องของ Lara ในทุกสาขาที่ทดสอบ

กลับไปที่หน้าแนะนำ Lara กลับไปที่หน้าแนะนำ Lara

การประเมินความถูกต้องของ Lara เทียบกับนักแปลมืออาชีพ

เราติดตามความคืบหน้าของ Lara โดยใช้คนประเมินคะแนนอย่างสม่ำเสมอ ตัวชี้วัดหลักตัวหนึ่งที่เราใช้คือข้อผิดพลาดต่อพันคำ (EPT หรือ EPTW) ตัวชี้วัดนี้ช่วยเราประเมินความถูกต้องของคำแปล โดยคำนวณจากจำนวนข้อผิดพลาดต่อเนื้อหาที่แปล 1,000 คำ EPT ช่วยเราวัดประสิทธิภาพของ Lara และระบุจุดที่ควรปรับปรุงได้อย่างเป็นกลาง

การตั้งระบบการประเมิน

การประเมินครั้งนี้เน้นไปที่เนื้อหาที่ผู้ใช้สร้างขึ้น รวมถึงแชท รีวิว และรายละเอียดผลิตภัณฑ์ เราให้ Lara แปลเนื้อหา และเกณฑ์นักแปลมืออาชีพระดับกลางและชั้นนำ 1% จากเครือข่ายของเรามาแปลเนื้อหาเดียวกันโดยไม่ใช้ระบบแปลอัตโนมัติใดเลย จากนั้นจึงนำคำแปลทั้งหมดไปให้นักแปลมืออาชีพที่คัดเลือกมาสำหรับขั้นตอนตรวจสอบโดยเฉพาะ เพื่อเน้นข้อผิดพลาดในการแปล

ขั้นตอนการประเมิน

การเลือกเนื้อหา

เราเลือกเนื้อหาที่ผู้ใช้สร้างขึ้นอย่างหลากหลาย รวมถึงข้อความแชท รีวิวจากลูกค้า และรายละเอียดผลิตภัณฑ์ เพื่อประเมินประสิทธิภาพการแปลสำหรับเนื้อหาประเภทต่างๆ อย่างครอบคลุม

การแปล

Lara จะแปลเนื้อหาที่เลือกมาก่อน ในขณะเดียวกัน เราก็ให้นักแปลมืออาชีพจากเครือข่ายของเราแปลเนื้อหาชุดเดียวกันโดยไม่ใช้ระบบแปลอัตโนมัติใดเลย นักแปลเหล่านี้ได้รับการคัดเลือกมาอย่างรอบคอบ จากกลุ่มนักแปลระดับกลางและชั้นนำ 1% เพื่อสะท้อนคุณภาพการแปลของมนุษย์อย่างครอบคลุม

การตรวจจับข้อผิดพลาด

ไม่ว่าจะแปลด้วยวิธีใด คำแปลทั้งหมดจะต้องผ่านกระบวนการตรวจสอบอย่างเข้มงวดโดยทีมนักแปลมืออาชีพแยกต่างหาก เราคัดเลือกผู้ตรวจสอบเหล่านี้จากความเชี่ยวชาญในด้านนี้โดยเฉพาะ และมอบหมายให้ตรวจข้อผิดพลาดในการแปลโดยไม่แจ้งว่าเป็นคำแปลจากที่ใด ตัวอย่างข้อผิดพลาดได้แก่ การใช้ไวยากรณ์ผิด แปลผิด และการละเว้นคำ เป็นต้น โดยตรวจสอบอย่างสม่ำเสมอ ทั้งการแปลจาก Lara และนักแปลมืออาชีพ

การคำนวณ EPT

เราคำนวณคะแนน EPT โดยเฉลี่ยผลลัพธ์จากการแปลหลายครั้ง คะแนนนี้แสดงความถี่ของข้อผิดพลาดและช่วยเราตรวจสอบพัฒนาการด้านประสิทธิภาพของ Lara

การประเมิน Lara ในเวอร์ชันถัดไป

เรานำขั้นตอนการประเมิน EPT แบบเดียวกันนี้มาใช้กับโมเดล Alpha ของ Lara รุ่นต่อไป โดยคาดว่าจะเริ่มใช้ในปี 2025 ตามแผนที่วางไว้ วิธีนี้ช่วยให้เราวัดผลการปรับปรุงเวอร์ชันใหม่ได้ตั้งแต่เริ่มแรก พร้อมเปรียบเทียบประสิทธิภาพกับเวอร์ชันปัจจุบัน การติดตามความคืบหน้านี้จะทำให้เราเข้าใจอย่างถ่องแท้ว่า Lara พัฒนาความถูกต้องในการแปลไปได้ดีแค่ไหน

ผลลัพธ์

ผล EPT แสดงให้เห็นพัฒนาการอย่างต่อเนื่องของ Lara ในการลดข้อผิดพลาดของการแปลหลายๆ สาขา ผลลัพธ์สะท้อนให้เห็นความก้าวหน้าของ Lara อย่างชัดเจน สู่ภาษาที่เป็นหนึ่งเดียว

กลับไปที่หน้าแนะนำ Lara กลับไปที่หน้าแนะนำ Lara

ภาษาเป็นปัจจัยที่สำคัญที่สุดในวิวัฒนาการของมนุษย์ เราใช้ภาษาทำความเข้าใจซึ่งกันและกัน ทำงานร่วมกัน เพื่อสร้างอนาคตที่ดียิ่งขึ้น ภาษาที่ซับซ้อนช่วยให้เราก้าวหน้าได้เร็วกว่าสัตว์สายพันธุ์อื่นๆ

เรากำลังปลดล็อกวิวัฒนาการขั้นต่อไปของมนุษย์โดยช่วยให้ทุกคนเข้าใจกันและกันในภาษาแม่ของตนเอง เพราะเราเชื่อในมนุษย์

การประเมินความสามารถในการแปลของ Lara อย่างครอบคลุม

การประเมินความแม่นยำของ Lara เทียบกับระบบ MT อื่นๆ

การตั้งระบบการประเมิน

ขั้นตอนการประเมิน

การคัดสรรนักแปลมืออาชีพ

การใช้คนประเมิน

ความเห็นพ้องเสียงข้างมาก

วิธีให้คะแนน

ผลลัพธ์

การประเมินความถูกต้องของ Lara เทียบกับนักแปลมืออาชีพ

การตั้งระบบการประเมิน

ขั้นตอนการประเมิน

การเลือกเนื้อหา

การแปล

การตรวจจับข้อผิดพลาด

การคำนวณ EPT

การประเมิน Lara ในเวอร์ชันถัดไป

ผลลัพธ์

แปลได้กว่า 200 ภาษา

คู่ภาษายอดนิยม