Lara'nın çeviri yeteneklerinin kapsamlı değerlendirmesi

Lara'nın performansını değerlendirmek amacıyla 300 cümleyi İngilizce'den yerelleştirme projelerinde en sık talep edilen dillere hem Lara hem de farklı makine çevirisi (MT) sistemleriyle çevirdik. Ardından profesyonel çevirmenlerden, her çevirinin doğruluğunu değerlendirmelerini istedik. Ayrıca, çevirmenlerden yalnızca Lara'nın çevirilerindeki hataları değil, aynı zamanda meslektaşlarının, özellikle ağımızdaki ortalama ve en iyi %1 dilimde yer alan profesyonel çevirmenlerin çevirilerindeki hataları da işaretlemelerini istedik.

Lara'nın doğruluğunun diğer MT sistemleriyle karşılaştırılması

Profesyonel çevirmenlerin tercihi: LaraKalite* (%)40%30%60%50%70%80%FinansTeknolojiTurizmGenelLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* İngilizce'den İtalyanca, Fransızca, İspanyolca, Almanca, Portekizce, Japonca, Çince, Rusça ve Korece dillerine yapılan 2.700 çeviri üzerinde çalışan, profesyonel çevirmenlerden oluşan üç kişilik ekipten en az ikisinin çeviriyi doğru bulduğu durumların yüzdesi.

Bu değerlendirme, kurumsal düzeyde gerçek dünya içeriğini kullanarak farklı makine çevirisi motorlarının performanslarını karşılaştırmak amacıyla tasarlandı. Test setimiz 2700 cümleden oluşuyordu. Bunların 300'ü İngilizce kaynak cümlelerdi ve bu cümleler dokuz farklı dile (İtalyanca, Fransızca, İspanyolca, Almanca, Portekizce, Japonca, Çince, Rusça ve Korece) çevrildi. Makine çevirileri inceleme süreci için özenle seçilen profesyonel çevirmenler tarafından titizlikle değerlendirildi. Tarafsızlığı sağlamak ve ön yargının önüne geçmek için çift körleme yöntemi uygulandı: Değerlendiriciler çevirilerin hangi MT motoru tarafından üretildiğini bilmiyordu ve diğer değerlendirmelere de erişimleri yoktu. Bu yaklaşım sayesinde her sistemin performansı adil ve objektif şekilde ölçülebildi.

Değerlendirme kurgusu

Turizm, finans ve teknoloji olmak üzere üç sektörde aktif çeviri projelerinden 300 gerçek dünya cümlesi seçtik. Bu değerlendirme, aşağıdaki makine çeviri modellerinin doğruluğunu ölçmeye odaklandı:

  • Lara
  • Google Translate
  • DeepL
  • OpenAI GPT-4o (5 örnekli öğrenme yöntemiyle; bu yöntemde modele çeviri kalitesini artırmak için beş örnek çeviri sağlanır)

Değerlendirme süreci

Profesyonel çevirmenlerin seçimi

Çeviri kalitesini değerlendirmek için 500.000 kişilik bir profesyonel çevirmen ağı içerisinden Translated tarafından geliştirilen yapay zekâ destekli sıralama sistemi T-Rank ile en yüksek performans gösteren çevirmenler seçildi. T-Rank, geçmiş performans ve uzmanlık dâhil olmak üzere 30'dan fazla ölçüte göre çevirmenleri değerlendirerek konuya özel yetkinliğe sahip çevirmenlerin seçilmesini sağlar. Bu sayede, değerlendirme için hedef dilleri ana dil düzeyinde konuşan son derece nitelikli çevirmenler seçildi.

İnsan değerlendirmesi

Hedef dillere çevrilmiş her cümle, hedef dili ana dili düzeyinde bilen üç profesyonel çevirmen tarafından bağımsız şekilde değerlendirildi. Değerlendiriciler çevirilerin hangi model tarafından üretildiğini bilmiyordu, bu şekilde ön yargıların önüne geçildi.

Çoğunluk uzlaşısı

Üç çevirmenden en az ikisinin bir çevirinin profesyonel kullanım için uygun olduğuna karar verdiği durumda ilgili model o cümle için bir puan aldı. Bu yöntem, öznel yargıların etkisini azaltarak fikir birliğini ön plana çıkardı.

Puanlama yöntemi

Her çeviri motorunun nihai puanı, çevirilerin çoğunluk tarafından onaylandığı vakaların yüzdesi olarak hesaplandı. Bu yaklaşım, her MT modelinin profesyonel içerik çevirilerindeki tutarlılığını ve güvenilirliğini yansıtmaktadır.

Sonuçlar

Aşağıdaki grafikler, üç farklı alanda dört makine çeviri motorunun performansını görselleştirmektedir. Lara %65 doğruluk oranıyla daha yüksek bir başarı gösterirken Google Translate, DeepL ve GPT-4 gibi diğer modellerin doğruluk oranları %54 ile %58 arasında değişmektedir. Bu sonuçlar, Lara'nın alanlar arasında tutarlı şekilde üstün performans sergilediğini ortaya koymaktadır.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEKalite* (%)50%40%70%60%80%90%FinansTeknolojiTurizmGenel
EN → ESKalite* (%)60%40%100%80%FinansTeknolojiTurizmGenel
EN → FRKalite* (%)40%30%60%50%70%80%FinansTeknolojiTurizmGenel
EN → ITKalite* (%)40%20%100%80%60%FinansTeknolojiTurizmGenel
EN → JAKalite* (%)50%30%90%70%FinansTeknolojiTurizmGenel
EN → KOKalite* (%)40%20%80%60%FinansTeknolojiTurizmGenel
EN → PTKalite* (%)40%20%100%80%60%FinansTeknolojiTurizmGenel
EN → RUKalite* (%)20%0%80%60%40%FinansTeknolojiTurizmGenel
EN → ZHKalite* (%)40%30%60%50%70%80%FinansTeknolojiTurizmGenel

* İngilizce'den İtalyanca, Fransızca, İspanyolca, Almanca, Portekizce, Japonca, Çince, Rusça ve Korece dillerine yapılan 2.700 çeviri üzerinde çalışan, profesyonel çevirmenlerden oluşan üç kişilik ekipten en az ikisinin çeviriyi doğru bulduğu durumların yüzdesi.

Lara'nın doğruluğunun profesyonel çevirmenlerle karşılaştırılması

Tek bir evrensel dile giden yolOcak 2024 Ocak 2025Language SingularityTipik makine çevirisi sistemiLara Grande012610842LaraProfesyonel çevirmen ortalamasıEn iyi %1'lik dilimdeki profesyonel çevirmenler1.000 kelime başına hata *

* İngilizce'den İtalyanca, Fransızca, İspanyolca, Almanca, Portekizce, Japonca, Çince, Rusça ve Korece dillerine yapılan 2.700 çeviri üzerinde çalışan, profesyonel çevirmenlerden oluşan üç kişilik ekipten en az ikisinin çeviriyi doğru bulduğu durumların yüzdesi.

Lara'nın gelişimini düzenli olarak yapılan insan değerlendirmeleriyle takip ediyoruz. Kullandığımız temel ölçütlerden biri bin kelime başına hata sayısıdır (EPT veya EPTW). Bu ölçüm, çevrilen içerikte bin kelime başına düşen hata sayısını hesaplayarak çeviri doğruluğunu nesnel bir şekilde değerlendirmemizi sağlar. EPT sayesinde Lara'nın performansı nicel olarak izlenebilir ve iyileştirilmesi gereken alanlar belirlenebilir.

Değerlendirme kurgusu

Bu değerlendirmede, kullanıcı kaynaklı içeriklere odaklandık. Bunlar arasında sohbetler, değerlendirmeler ve ürün açıklamaları yer alıyor. İçeriği hem Lara ile hem de profesyonel çevirmenlerle çevirdik. Profesyonel çevirmenler, ağımızdaki ortalama seviyedeki ve en üst %1'lik dilimdeki çevirmenler arasından seçildi ve çeviri sürecinde herhangi bir makine çeviri aracı kullanmadılar. Tüm çeviriler, yalnızca değerlendirme süreci için özel olarak seçilen profesyonel çevirmenler tarafından gözden geçirildi. Bu sayede çeviri hataları detaylı şekilde ortaya çıkarıldı.

Değerlendirme süreci

İçerik seçimi

Farklı içerik türleri üzerinden çeviri performansını kapsamlı şekilde değerlendirmek amacıyla sohbet kayıtları, müşteri yorumları ve detaylı ürün açıklamaları gibi çeşitli kullanıcı kaynaklı içerikler seçildi.

Çeviri

Seçilen içerikler önce Lara kullanılarak çevrildi. Aynı içerik seti, eş zamanlı olarak makine çeviri araçları kullanılmadan profesyonel çevirmenler tarafından da çevrildi. Bu çevirmenler, insan çeviri kalitesini geniş bir yelpazede temsil edebilmek için ağımızdaki ortalama performansa sahip ve en iyi %1'lik dilimdeki çevirmenler arasından titizlikle seçildi.

Hata tespiti

Kullanılan yöntem fark etmeksizin tüm çeviriler bağımsız bir profesyonel çevirmen ekibi tarafından kapsamlı bir inceleme sürecine tabi tutuldu. Bu değerlendirme ekibi, uzmanlıklarına göre özel olarak seçildi ve çevirilerin kaynağını bilmeden çeviri hatalarını tespit etmekle görevlendirildi. Bu hatalar dil bilgisi hataları, yanlış çeviriler, eksiklikler gibi başlıkları içeriyordu. Bu inceleme süreci hem Lara'nın hem de profesyonel çevirilerin tamamı için aynı şekilde uygulandı.

EPT hesaplama

EPT puanı, birden fazla çeviri üzerinden elde edilen sonuçların ortalaması alınarak hesaplandı. Bu puan hata sıklığını temsil eder ve Lara'nın çeviri performansındaki gelişimi izlememize olanak tanır.

Yeni Lara sürümünün değerlendirilmesi

Aynı EPT değerlendirme süreci, 2025'te piyasaya sürülmesi planlanan Lara'nın yeni sürümünün alfa modeline de uygulandı. Bu sayede, yeni sürümdeki iyileştirme alanlarını erkenden ölçebildik ve mevcut sürümle karşılaştırma yapabildik. Bu tür değerlendirmeler, Lara'nın daha yüksek çeviri doğruluğuna uzanan sürecine dair değerli analizler sunuyor.

Sonuçlar

EPT sonuçları, Lara'nın farklı alanlarda çeviri hatalarını istikrarlı bir şekilde azalttığını göstermektedir. Bu bulgular, Lara'nın evrensel tek bir dile doğru attığı adımları net biçimde yansıtıyor.

Dil, insan evrimindeki en önemli faktörlerden biri olmuştur. Dil sayesinde birbirimizi anlayabilir ve daha iyi bir gelecek inşa etmek için birlikte çalışabiliriz. Karmaşık dil yapıları, bizi diğer tüm canlılardan daha hızlı geliştiren temel gücümüz olmuştur.

Herkesin kendi ana dilinde anlayabilmesini ve anlaşılabilmesini mümkün kılarak insan evriminde bir sonraki aşamanın kapılarını aralıyoruz. Biz insanlara inanıyoruz.