Lara'nın çeviri yeteneklerinin kapsamlı değerlendirmesi
Lara'nın performansını değerlendirmek amacıyla 300 cümleyi İngilizce'den yerelleştirme projelerinde en sık talep edilen dillere hem Lara hem de farklı makine çevirisi (MT) sistemleriyle çevirdik. Ardından profesyonel çevirmenlerden, her çevirinin doğruluğunu değerlendirmelerini istedik. Ayrıca, çevirmenlerden yalnızca Lara'nın çevirilerindeki hataları değil, aynı zamanda meslektaşlarının, özellikle ağımızdaki ortalama ve en iyi %1 dilimde yer alan profesyonel çevirmenlerin çevirilerindeki hataları da işaretlemelerini istedik.
Lara'nın doğruluğunun diğer MT sistemleriyle karşılaştırılması
* İngilizce'den İtalyanca, Fransızca, İspanyolca, Almanca, Portekizce, Japonca, Çince, Rusça ve Korece dillerine yapılan 2.700 çeviri üzerinde çalışan, profesyonel çevirmenlerden oluşan üç kişilik ekipten en az ikisinin çeviriyi doğru bulduğu durumların yüzdesi.
Bu değerlendirme, kurumsal düzeyde gerçek dünya içeriğini kullanarak farklı makine çevirisi motorlarının performanslarını karşılaştırmak amacıyla tasarlandı. Test setimiz 2700 cümleden oluşuyordu. Bunların 300'ü İngilizce kaynak cümlelerdi ve bu cümleler dokuz farklı dile (İtalyanca, Fransızca, İspanyolca, Almanca, Portekizce, Japonca, Çince, Rusça ve Korece) çevrildi. Makine çevirileri inceleme süreci için özenle seçilen profesyonel çevirmenler tarafından titizlikle değerlendirildi. Tarafsızlığı sağlamak ve ön yargının önüne geçmek için çift körleme yöntemi uygulandı: Değerlendiriciler çevirilerin hangi MT motoru tarafından üretildiğini bilmiyordu ve diğer değerlendirmelere de erişimleri yoktu. Bu yaklaşım sayesinde her sistemin performansı adil ve objektif şekilde ölçülebildi.
Değerlendirme kurgusu
Turizm, finans ve teknoloji olmak üzere üç sektörde aktif çeviri projelerinden 300 gerçek dünya cümlesi seçtik. Bu değerlendirme, aşağıdaki makine çeviri modellerinin doğruluğunu ölçmeye odaklandı:
- Lara
- Google Translate
- DeepL
- OpenAI GPT-4o (5 örnekli öğrenme yöntemiyle; bu yöntemde modele çeviri kalitesini artırmak için beş örnek çeviri sağlanır)
Değerlendirme süreci
Profesyonel çevirmenlerin seçimi
Çeviri kalitesini değerlendirmek için 500.000 kişilik bir profesyonel çevirmen ağı içerisinden Translated tarafından geliştirilen yapay zekâ destekli sıralama sistemi T-Rank ile en yüksek performans gösteren çevirmenler seçildi. T-Rank, geçmiş performans ve uzmanlık dâhil olmak üzere 30'dan fazla ölçüte göre çevirmenleri değerlendirerek konuya özel yetkinliğe sahip çevirmenlerin seçilmesini sağlar. Bu sayede, değerlendirme için hedef dilleri ana dil düzeyinde konuşan son derece nitelikli çevirmenler seçildi.
İnsan değerlendirmesi
Hedef dillere çevrilmiş her cümle, hedef dili ana dili düzeyinde bilen üç profesyonel çevirmen tarafından bağımsız şekilde değerlendirildi. Değerlendiriciler çevirilerin hangi model tarafından üretildiğini bilmiyordu, bu şekilde ön yargıların önüne geçildi.
Çoğunluk uzlaşısı
Üç çevirmenden en az ikisinin bir çevirinin profesyonel kullanım için uygun olduğuna karar verdiği durumda ilgili model o cümle için bir puan aldı. Bu yöntem, öznel yargıların etkisini azaltarak fikir birliğini ön plana çıkardı.
Puanlama yöntemi
Her çeviri motorunun nihai puanı, çevirilerin çoğunluk tarafından onaylandığı vakaların yüzdesi olarak hesaplandı. Bu yaklaşım, her MT modelinin profesyonel içerik çevirilerindeki tutarlılığını ve güvenilirliğini yansıtmaktadır.
Sonuçlar
Aşağıdaki grafikler, üç farklı alanda dört makine çeviri motorunun performansını görselleştirmektedir. Lara %65 doğruluk oranıyla daha yüksek bir başarı gösterirken Google Translate, DeepL ve GPT-4 gibi diğer modellerin doğruluk oranları %54 ile %58 arasında değişmektedir. Bu sonuçlar, Lara'nın alanlar arasında tutarlı şekilde üstün performans sergilediğini ortaya koymaktadır.
* İngilizce'den İtalyanca, Fransızca, İspanyolca, Almanca, Portekizce, Japonca, Çince, Rusça ve Korece dillerine yapılan 2.700 çeviri üzerinde çalışan, profesyonel çevirmenlerden oluşan üç kişilik ekipten en az ikisinin çeviriyi doğru bulduğu durumların yüzdesi.
Lara'nın doğruluğunun profesyonel çevirmenlerle karşılaştırılması
* İngilizce'den İtalyanca, Fransızca, İspanyolca, Almanca, Portekizce, Japonca, Çince, Rusça ve Korece dillerine yapılan 2.700 çeviri üzerinde çalışan, profesyonel çevirmenlerden oluşan üç kişilik ekipten en az ikisinin çeviriyi doğru bulduğu durumların yüzdesi.
Lara'nın gelişimini düzenli olarak yapılan insan değerlendirmeleriyle takip ediyoruz. Kullandığımız temel ölçütlerden biri bin kelime başına hata sayısıdır (EPT veya EPTW). Bu ölçüm, çevrilen içerikte bin kelime başına düşen hata sayısını hesaplayarak çeviri doğruluğunu nesnel bir şekilde değerlendirmemizi sağlar. EPT sayesinde Lara'nın performansı nicel olarak izlenebilir ve iyileştirilmesi gereken alanlar belirlenebilir.
Değerlendirme kurgusu
Bu değerlendirmede, kullanıcı kaynaklı içeriklere odaklandık. Bunlar arasında sohbetler, değerlendirmeler ve ürün açıklamaları yer alıyor. İçeriği hem Lara ile hem de profesyonel çevirmenlerle çevirdik. Profesyonel çevirmenler, ağımızdaki ortalama seviyedeki ve en üst %1'lik dilimdeki çevirmenler arasından seçildi ve çeviri sürecinde herhangi bir makine çeviri aracı kullanmadılar. Tüm çeviriler, yalnızca değerlendirme süreci için özel olarak seçilen profesyonel çevirmenler tarafından gözden geçirildi. Bu sayede çeviri hataları detaylı şekilde ortaya çıkarıldı.
Değerlendirme süreci
İçerik seçimi
Farklı içerik türleri üzerinden çeviri performansını kapsamlı şekilde değerlendirmek amacıyla sohbet kayıtları, müşteri yorumları ve detaylı ürün açıklamaları gibi çeşitli kullanıcı kaynaklı içerikler seçildi.
Çeviri
Seçilen içerikler önce Lara kullanılarak çevrildi. Aynı içerik seti, eş zamanlı olarak makine çeviri araçları kullanılmadan profesyonel çevirmenler tarafından da çevrildi. Bu çevirmenler, insan çeviri kalitesini geniş bir yelpazede temsil edebilmek için ağımızdaki ortalama performansa sahip ve en iyi %1'lik dilimdeki çevirmenler arasından titizlikle seçildi.
Hata tespiti
Kullanılan yöntem fark etmeksizin tüm çeviriler bağımsız bir profesyonel çevirmen ekibi tarafından kapsamlı bir inceleme sürecine tabi tutuldu. Bu değerlendirme ekibi, uzmanlıklarına göre özel olarak seçildi ve çevirilerin kaynağını bilmeden çeviri hatalarını tespit etmekle görevlendirildi. Bu hatalar dil bilgisi hataları, yanlış çeviriler, eksiklikler gibi başlıkları içeriyordu. Bu inceleme süreci hem Lara'nın hem de profesyonel çevirilerin tamamı için aynı şekilde uygulandı.
EPT hesaplama
EPT puanı, birden fazla çeviri üzerinden elde edilen sonuçların ortalaması alınarak hesaplandı. Bu puan hata sıklığını temsil eder ve Lara'nın çeviri performansındaki gelişimi izlememize olanak tanır.
Yeni Lara sürümünün değerlendirilmesi
Aynı EPT değerlendirme süreci, 2025'te piyasaya sürülmesi planlanan Lara'nın yeni sürümünün alfa modeline de uygulandı. Bu sayede, yeni sürümdeki iyileştirme alanlarını erkenden ölçebildik ve mevcut sürümle karşılaştırma yapabildik. Bu tür değerlendirmeler, Lara'nın daha yüksek çeviri doğruluğuna uzanan sürecine dair değerli analizler sunuyor.
Sonuçlar
EPT sonuçları, Lara'nın farklı alanlarda çeviri hatalarını istikrarlı bir şekilde azalttığını göstermektedir. Bu bulgular, Lara'nın evrensel tek bir dile doğru attığı adımları net biçimde yansıtıyor.
Dil, insan evrimindeki en önemli faktörlerden biri olmuştur. Dil sayesinde birbirimizi anlayabilir ve daha iyi bir gelecek inşa etmek için birlikte çalışabiliriz. Karmaşık dil yapıları, bizi diğer tüm canlılardan daha hızlı geliştiren temel gücümüz olmuştur.
Herkesin kendi ana dilinde anlayabilmesini ve anlaşılabilmesini mümkün kılarak insan evriminde bir sonraki aşamanın kapılarını aralıyoruz. Biz insanlara inanıyoruz.