Penilaian Komprehensif atas Kemampuan Penerjemahan Lara

Untuk mengevaluasi kinerja Lara, kami menerjemahkan 300 kalimat dari bahasa Inggris ke dalam beberapa bahasa wajib yang paling umum dalam pelokalan menggunakan Lara dan beragam sistem MT. Kemudian kami meminta penerjemah profesional untuk menilai keakuratan setiap terjemahan. Selain itu, kami meminta penerjemah profesional menandai kesalahan dalam terjemahan Lara serta dalam terjemahan yang dilakukan oleh rekan-rekan mereka—khususnya penerjemah yang berada di tingkat menengah dan 1% teratas dalam jaringan penerjemah profesional kami.

Menilai akurasi Lara terhadap sistem MT lainnya

Penerjemah Profesional Lebih Memilih LaraKualitas* (%)40%30%60%50%70%80%KeuanganTeknologiPariwisataUmumLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* Persentase waktu yang menunjukkan setidaknya 2 dari 3 penerjemah profesional setuju bahwa terjemahan akurat dalam 2.700 terjemahan dari bahasa Inggris ke bahasa Italia, Prancis, Spanyol, Jerman, Portugis, Jepang, Mandarin, Rusia, dan Korea.

Kami merancang evaluasi ini untuk membandingkan kinerja berbagai penerjemahan mesin menggunakan konten yang digunakan oleh perusahaan besar di dunia nyata. Rangkaian pengujian kami terdiri dari 2.700 kalimat, meliputi 300 kalimat sumber berbahasa Inggris yang diterjemahkan oleh sistem penerjemahan mesin ke dalam sembilan bahasa pelokalan yang paling sering diminta: Italia, Prancis, Spanyol, Jerman, Portugis, Jepang, Mandarin, Rusia, dan Korea. Akurasi terjemahan yang dihasilkan mesin ini dievaluasi dengan teliti oleh penerjemah profesional yang dipilih secara cermat untuk proses evaluasi. Untuk memastikan objektivitas dan menghilangkan bias, kami menggunakan metode double-blind: evaluator tidak mengetahui penerjemahan mesin yang menghasilkan masing-masing terjemahan, dan mereka tidak diberi tahu hasil evaluasi evaluator lain. Pendekatan ini memungkinkan penilaian yang tidak bias dan adil terhadap kinerja setiap sistem.

Pengaturan Evaluasi

Kami memilih 300 kalimat yang digunakan di dunia nyata dari proyek penerjemahan aktif di tiga industri: pariwisata, keuangan, dan teknologi. Evaluasi berfokus pada pengukuran akurasi model penerjemahan mesin berikut:

  • Lara
  • Google Translate
  • DeepL
  • GPT-4o dari OpenAI (menggunakan pendekatan pembelajaran 5-shot, yang melibatkan lima contoh terjemahan dalam perintah untuk memandu dan meningkatkan kinerja terjemahan model)

Proses Evaluasi

Pemilihan penerjemah profesional

Untuk menilai kualitas terjemahan, kami memilih penerjemah profesional berkinerja terbaik dari jaringan 500.000 penerjemah menggunakan T-Rank, yaitu sistem peringkat berbasis AI yang dikembangkan oleh Translated. T-Rank membantu memilih penerjemah profesional berkinerja terbaik dan memiliki kualifikasi di bidang tertentu dengan mengevaluasi kinerja terdahulu dan keahlian mereka di lebih dari 30 kriteria. Hal ini memastikan bahwa penerjemah yang dipilih untuk evaluasi adalah penutur asli bahasa target yang memiliki kualifikasi tinggi.

Evaluasi oleh manusia

Tiga penerjemah asli profesional ditugaskan secara independen untuk mengevaluasi setiap kalimat terjemahan untuk setiap bahasa target. Para penerjemah tidak tahu model yang menghasilkan terjemahan tersebut, memastikan evaluasi tidak bias.

Kesepakatan mayoritas

Jika setidaknya dua dari tiga penerjemah sepakat bahwa suatu terjemahan cocok untuk penggunaan profesional, model tersebut menerima satu poin untuk kalimat itu. Metode ini mengurangi subjektivitas dan menekankan konsensus.

Metodologi penilaian

Skor akhir untuk setiap mesin merepresentasikan persentase kasus yang terjemahannya disetujui oleh sebagian besar evaluator. Pendekatan ini mencerminkan konsistensi dan keandalan masing-masing model MT dalam menerjemahkan konten profesional.

Hasil

Grafik di bawah ini memvisualisasikan kinerja empat mesin MT di tiga domain. Lara menunjukkan akurasi yang lebih tinggi dengan skor 65%, sementara model lain, termasuk Google Translate, DeepL, dan GPT-4, memiliki skor mulai dari 54% hingga 58%. Hasil ini menunjukkan konsistensi kinerja Lara yang unggul di seluruh domain.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEKualitas* (%)50%40%70%60%80%90%KeuanganTeknologiPariwisataUmum
EN → ESKualitas* (%)60%40%100%80%KeuanganTeknologiPariwisataUmum
EN → FRKualitas* (%)40%30%60%50%70%80%KeuanganTeknologiPariwisataUmum
EN → ITKualitas* (%)40%20%100%80%60%KeuanganTeknologiPariwisataUmum
EN → JAKualitas* (%)50%30%90%70%KeuanganTeknologiPariwisataUmum
EN → KOKualitas* (%)40%20%80%60%KeuanganTeknologiPariwisataUmum
EN → PTKualitas* (%)40%20%100%80%60%KeuanganTeknologiPariwisataUmum
EN → RUKualitas* (%)20%0%80%60%40%KeuanganTeknologiPariwisataUmum
EN → ZHKualitas* (%)40%30%60%50%70%80%KeuanganTeknologiPariwisataUmum

* Persentase waktu yang menunjukkan setidaknya 2 dari 3 penerjemah profesional setuju bahwa terjemahan akurat dalam 2.700 terjemahan dari bahasa Inggris ke bahasa Italia, Prancis, Spanyol, Jerman, Portugis, Jepang, Mandarin, Rusia, dan Korea.

Mengevaluasi akurasi Lara dibandingkan dengan penerjemah profesional

Langkah Maju Kita Menuju Singularitas BahasaJanuari 2024Januari 2025Language SingularitySistem Penerjemahan Mesin StandarLara Grande012610842LaraPenerjemah Profesional Menengah1% Penerjemah Profesional TeratasKesalahan per 1.000 Kata *

* Persentase waktu yang menunjukkan setidaknya 2 dari 3 penerjemah profesional setuju bahwa terjemahan akurat dalam 2.700 terjemahan dari bahasa Inggris ke bahasa Italia, Prancis, Spanyol, Jerman, Portugis, Jepang, Mandarin, Rusia, dan Korea.

Kami melacak kemajuan Lara melalui penilaian manusia yang dilakukan secara rutin. Salah satu metrik utama yang kami gunakan adalah kesalahan per seribu kata (EPT atau EPTW). Metrik ini membantu kami menilai akurasi terjemahan dengan menghitung jumlah kesalahan per seribu kata dari konten terjemahan. Dengan menggunakan EPT, kami dapat mengukur kinerja Lara secara objektif dan mengidentifikasi aspek-aspek yang perlu ditingkatkan.

Pengaturan Evaluasi

Dalam evaluasi ini, kami berfokus pada konten buatan pengguna, termasuk obrolan, ulasan, dan deskripsi produk. Kami menerjemahkan konten menggunakan Lara dan juga meminta penerjemah profesional yang dipilih dari penerjemah menengah dan 1 persentil teratas dalam jaringan kami untuk menerjemahkan konten yang sama tanpa menggunakan penerjemahan mesin apa pun. Selanjutnya, semua terjemahan dievaluasi oleh penerjemah profesional yang secara khusus dipilih untuk melakukan proses evaluasi guna menyoroti kesalahan terjemahan.

Proses Evaluasi

Pemilihan Konten

Kami memilih beragam materi buatan pengguna, termasuk transkrip obrolan, ulasan pelanggan, dan deskripsi produk terperinci, untuk menilai kinerja terjemahan secara komprehensif di berbagai jenis konten.

Terjemahan

Konten terpilih tersebut pertama kali diterjemahkan menggunakan Lara. Secara paralel, kami melibatkan penerjemah profesional dari jaringan kami untuk menerjemahkan kumpulan konten yang sama tanpa bantuan alat penerjemahan mesin apa pun. Penerjemah ini dipilih dengan cermat dari penerjemah menengah dan 1 persentil teratas untuk memastikan representasi kualitas terjemahan manusia yang beragam.

Deteksi kesalahan

Terlepas dari metode yang digunakan, semua terjemahan menjalani proses evaluasi ketat yang dilakukan oleh tim penerjemah profesional secara terpisah. Para evaluator ini secara khusus dipilih berdasarkan keahlian mereka dan ditugaskan untuk mengidentifikasi kesalahan terjemahan tanpa mengetahui sumber terjemahan. Kesalahan ini termasuk masalah seperti kesalahan tata bahasa, kesalahan penerjemahan, dan penghilangan terjemahan istilah. Langkah ini diterapkan secara konsisten di seluruh terjemahan Lara dan terjemahan profesional.

Kalkulasi EPT

Rata-rata skor EPT dihitung dengan menggabungkan hasil di beberapa terjemahan. Skor ini mewakili frekuensi kesalahan dan memungkinkan kami memantau peningkatan kinerja Lara.

Mengevaluasi Versi Lara Berikutnya

Kami menerapkan proses evaluasi EPT yang sama untuk model alpha dari model Lara berikutnya, yang diperkirakan hadir pada tahun 2025. Ini membantu kami mengukur peningkatan awal dalam versi baru dan membandingkan kinerjanya dengan iterasi saat ini. Dengan memantau progres ini, kami dapat memperoleh wawasan penting tentang perkembangan Lara untuk menghasilkan terjemahan yang lebih akurat.

Hasil

Hasil EPT menunjukkan peningkatan Lara yang konsisten dalam mengurangi kesalahan terjemahan di beberapa domain. Hasilnya jelas mencerminkan kemajuan Lara menuju singularitas bahasa.

Bahasa telah menjadi faktor terpenting dalam evolusi manusia. Melalui bahasa, kita dapat saling memahami dan bekerja sama untuk membangun masa depan yang lebih baik. Bahasa yang kompleks telah memberi kita kemampuan untuk berkembang lebih cepat daripada spesies lain.

Dengan memungkinkan semua orang untuk memahami dan dipahami dalam bahasa asli mereka, kami membuka jalan menuju tahap evolusi manusia berikutnya. Kami percaya pada manusia.