Penilaian Menyeluruh Keupayaan Terjemahan Lara

Bagi menilai prestasi Lara, kami telah menterjemahkan 300 ayat daripada bahasa Inggeris ke dalam bahasa yang paling lazim diperlukan untuk penyetempatan dengan menggunakan Lara dan pelbagai sistem MT. Kami kemudian meminta penterjemah profesional untuk menilai ketepatan setiap terjemahan. Selain itu, kami telah meminta penterjemah profesional menandakan kesilapan dalam terjemahan Lara serta terjemahan yang dilakukan oleh rakan sekerja mereka โ€” khususnya yang berada di peringkat median dan 1% penterjemah profesional terbaik dalam rangkaian kami.

Menilai ketepatan Lara berbanding sistem MT lain

Lara Pilihan Utama Penterjemah ProfesionalKualiti* (%)40%30%60%50%70%80%KewanganTeknologiPelanconganAmLaraOpenAIโ€™s GPT-4oGoogle TranslateDeepL

* Peratusan masa sekurang-kurangnya 2 daripada 3 penterjemah profesional bersetuju bahawa terjemahan adalah tepat dalam 2,700 terjemahan daripada bahasa Inggeris ke bahasa Itali, Perancis, Sepanyol, Jerman, Portugis, Jepun, Cina, Rusia dan Korea.

Kami mereka bentuk penilaian ini untuk membandingkan prestasi pelbagai terjemahan mesin menggunakan kandungan yang digunakan pada peringkat perusahaan dalam dunia sebenar. Set ujian kami terdiri daripada 2,700 ayat, yang mengandungi 300 ayat daripada sumber bahasa Inggeris yang diterjemahkan oleh sistem terjemahan mesin ke dalam sembilan bahasa penyetempatan yang paling kerap diminta: bahasa Itali, Perancis, Sepanyol, Jerman, Portugis, Jepun, Cina, Rusia dan Korea. Ketepatan terjemahan yang dihasilkan oleh mesin ini dinilai dengan cermat oleh penterjemah profesional yang dipilih dengan teliti untuk proses semakan. Untuk memastikan objektiviti dan menghapuskan berat sebelah, kami menggunakan kaedah dwibutaan: penyemak tidak mengetahui enjin terjemahan mesin mana yang menghasilkan setiap terjemahan dan mereka tidak dimaklumkan mengenai penilaian penyemak lain. Pendekatan ini membolehkan penilaian yang tidak berat sebelah dan adil terhadap prestasi setiap sistem.

Penyediaan Penilaian

Kami memilih 300 ayat dunia sebenar daripada projek terjemahan yang aktif bagi tiga industri: pelancongan, kewangan dan teknologi. Penilaian memberi tumpuan dalam mengukur ketepatan model terjemahan mesin berikut:

  • Lara
  • Google Translate
  • DeepL
  • GPT-4o OpenAI (menggunakan pendekatan pembelajaran '5-shot' yang melibatkan penyediaan lima contoh terjemahan dalam gesaan untuk membimbing dan meningkatkan prestasi terjemahan model tersebut)

Proses Penilaian

Pemilihan penterjemah profesional

Untuk menilai kualiti terjemahan, kami telah memilih penterjemah profesional berprestasi terbaik daripada rangkaian seramai 500,000 penterjemah dengan menggunakan T-Rank - sistem kedudukan dipacu AI yang dibangunkan oleh Translated. T-Rank membantu pemilihan penterjemah profesional yang berprestasi terbaik dan mempunyai kelayakan dalam bidang khusus tertentu dengan menilai prestasi terdahulu dan kepakaran mereka berdasarkan lebih daripada 30 kriteria. Ini memastikan penterjemah yang dipilih untuk penilaian adalah penutur asli bahasa sasaran yang berkelayakan tinggi.

Penilaian manusia

Tiga penterjemah asli profesional ditugaskan secara bebas untuk menyemak setiap ayat yang diterjemahkan bagi setiap bahasa sasaran. Penterjemah tidak tahu model mana yang menghasilkan terjemahan, sekali gus memastikan penilaian yang tidak berat sebelah.

Persetujuan majoriti

Jika sekurang-kurangnya dua daripada tiga penterjemah bersetuju bahawa terjemahan sesuai untuk kegunaan profesional, model tersebut menerima satu mata untuk ayat tersebut. Kaedah ini mengurangkan kesubjektifan dan menekankan konsensus.

Metodologi pemarkahan

Markah akhir bagi setiap enjin mewakili peratusan kes di mana kebanyakan penilai meluluskan terjemahan tersebut. Pendekatan ini mencerminkan konsistensi dan kebolehpercayaan bagi setiap model MT dalam terjemahan kandungan profesional.

Keputusan

Carta di bawah menggambarkan prestasi empat enjin MT dalam tiga domain. Lara menunjukkan ketepatan yang lebih tinggi dengan markah sebanyak 65%, manakala model lain termasuk Google Translate, DeepL dan GPT-4 telah mendapat markah antara 54% hingga 58%. Keputusan ini menunjukkan prestasi Lara yang lebih tinggi secara konsisten bagi ketiga-tiga domain ini.

LaraOpenAIโ€™s GPT-4oGoogle TranslateDeepL
EN โ†’ DEKualiti* (%)50%40%70%60%80%90%KewanganTeknologiPelanconganAm
EN โ†’ ESKualiti* (%)60%40%100%80%KewanganTeknologiPelanconganAm
EN โ†’ FRKualiti* (%)40%30%60%50%70%80%KewanganTeknologiPelanconganAm
EN โ†’ ITKualiti* (%)40%20%100%80%60%KewanganTeknologiPelanconganAm
EN โ†’ JAKualiti* (%)50%30%90%70%KewanganTeknologiPelanconganAm
EN โ†’ KOKualiti* (%)40%20%80%60%KewanganTeknologiPelanconganAm
EN โ†’ PTKualiti* (%)40%20%100%80%60%KewanganTeknologiPelanconganAm
EN โ†’ RUKualiti* (%)20%0%80%60%40%KewanganTeknologiPelanconganAm
EN โ†’ ZHKualiti* (%)40%30%60%50%70%80%KewanganTeknologiPelanconganAm

* Peratusan masa sekurang-kurangnya 2 daripada 3 penterjemah profesional bersetuju bahawa terjemahan adalah tepat dalam 2,700 terjemahan daripada bahasa Inggeris ke bahasa Itali, Perancis, Sepanyol, Jerman, Portugis, Jepun, Cina, Rusia dan Korea.

Menilai ketepatan Lara berbanding penterjemah profesional

Kemajuan Kita Ke Arah Keunikan BahasaJanuari 2024Januari 2025Language SingularitySistem Terjemahan Mesin BiasaLara Grande012610842LaraPenterjemah Profesional Median1% Penterjemah Profesional TerbaikKesalahan setiap 1,000 Perkataan *

* Peratusan masa sekurang-kurangnya 2 daripada 3 penterjemah profesional bersetuju bahawa terjemahan adalah tepat dalam 2,700 terjemahan daripada bahasa Inggeris ke bahasa Itali, Perancis, Sepanyol, Jerman, Portugis, Jepun, Cina, Rusia dan Korea.

Kami menjejak kemajuan Lara melalui pemarkahan manusia biasa. Salah satu metrik utama yang kami gunakan ialah kesalahan bagi setiap seribu perkataan (EPT atau EPTW). Metrik ini membantu kami menilai ketepatan terjemahan dengan mengira bilangan kesalahan bagi setiap seribu perkataan bagi kandungan yang diterjemah. Dengan menggunakan EPT, kami dapat mengukur prestasi Lara secara objektif dan mengenal pasti bahagian untuk penambahbaikan.

Penyediaan Penilaian

Dalam penilaian ini, kami memberi tumpuan kepada kandungan dijana pengguna yang merangkumi sembang, ulasan dan keterangan produk. Kami menterjemahkan kandungan menggunakan Lara dan juga mendapatkan penterjemah profesional yang dipilih daripada penterjemah median dan 1 peratus yang terbaik daripada rangkaian kami untuk menterjemah kandungan yang sama tanpa menggunakan sebarang terjemahan mesin. Semua terjemahan kemudiannya disemak oleh penterjemah profesional yang dipilih khusus untuk proses semakan bagi menunjukkan kesalahan terjemahan.

Proses Penilaian

Pemilihan Kandungan

Kami memilih pelbagai jenis bahan dijana pengguna yang merangkumi transkrip sembang, ulasan pelanggan dan keterangan terperinci produk bagi menilai prestasi terjemahan merentasi pelbagai jenis kandungan secara menyeluruh.

Terjemahan

Kandungan yang dipilih telah diterjemahkan terlebih dahulu dengan menggunakan Lara. Pada masa yang sama, kami mendapatkan penterjemah profesional daripada rangkaian kami untuk menterjemah set kandungan yang sama tanpa bantuan sebarang alat terjemahan mesin. Penterjemah ini dipilih dengan teliti daripada kalangan penterjemah prestasi median dan 1 peratus penterjemah terbaik demi memastikan perwakilan kualiti terjemahan manusia yang luas.

Pengesanan kesalahan

Tanpa mengira kaedah yang digunakan, semua terjemahan menjalani proses semakan yang ketat yang dilakukan oleh pasukan penterjemah profesional yang berasingan. Penyemak ini dipilih secara khusus berdasarkan kepakaran mereka dan ditugaskan untuk menunjukkan kesalahan terjemahan tanpa mengetahui sumber terjemahan. Kesalahan ini termasuk isu-isu seperti kesalahan tatabahasa, salah terjemahan dan perkataan yang tidak dimasukkan. Langkah ini digunakan secara konsisten di seluruh terjemahan Lara dan terjemahan profesional.

Pengiraan EPT

Markah EPT dipuratakan dengan menggabungkan keputusan pada berbilang terjemahan. Markah ini mewakili kekerapan kesalahan dan membolehkan kami memantau peningkatan prestasi Lara.

Menilai Versi Lara Seterusnya

Kami menggunakan proses penilaian EPT yang sama untuk model alpha bagi model Lara yang dirancang seterusnya yang dijangka dikeluarkan pada tahun 2025. Ini membantu kami mengukur penambahbaikan awal dalam versi baharu dan membandingkan prestasinya dengan versi semasa. Dengan menjejak kemajuan ini, ia memberi gambaran yang berharga kepada kami tentang sejauh mana kemajuan Lara ke arah ketepatan terjemahan yang lebih tinggi.

Keputusan

Keputusan EPT menunjukkan peningkatan Lara yang berterusan dalam mengurangkan kesalahan terjemahan pada pelbagai domain. Keputusan ini jelas mencerminkan kemajuan Lara ke arah keunikan bahasa.

Bahasa telah menjadi faktor terpenting dalam evolusi manusia. Melalui bahasa, kita dapat memahami antara satu sama lain dan bekerjasama untuk membina masa depan yang lebih baik. Bahasa kompleks telah membolehkan kita maju dengan lebih cepat berbanding spesies lain.

Dengan membolehkan semua orang memahami dan difahami dalam bahasa ibunda mereka, kita membuka tahap evolusi manusia yang seterusnya. Kita percaya kepada manusia.