Kompleksowa ocena możliwości tłumaczeniowych Lary
Aby ocenić wydajność Lary, przetłumaczyliśmy 300 zdań z języka angielskiego na najczęściej wybierane języki lokalizacji przy użyciu Lary i różnych systemów MT. Następnie poprosiliśmy zawodowych tłumaczy o ocenę dokładności każdego tłumaczenia. Ponadto poprosiliśmy zawodowych tłumaczy o zgłaszanie błędów w tłumaczeniach Lary, a także w tłumaczeniach wykonanych przez innych lingwistów – tych na poziomie mediany i 1% najlepszych w naszej sieci zawodowych tłumaczy.
Ocena dokładności Lary na tle innych systemów MT
* Odsetek przypadków, w których co najmniej 2 z 3 zawodowych tłumaczy zgodziło się, że tłumaczenie było dokładne, na podstawie 2700 tłumaczeń z języka angielskiego na włoski, francuski, hiszpański, niemiecki, portugalski, japoński, chiński, rosyjski i koreański.
Opracowaliśmy tę ocenę, aby porównać wyniki różnych mechanizmów tłumaczenia maszynowego przy użyciu rzeczywistych treści dla przedsiębiorstw. Nasz zestaw testowy obejmował 2700 zdań, na które składało się 300 angielskich zdań źródłowych przetłumaczonych przez systemy tłumaczenia maszynowego na dziewięć najczęściej wybieranych języków lokalizacji: włoski, francuski, hiszpański, niemiecki, portugalski, japoński, chiński, rosyjski i koreański. Dokładność tych wygenerowanych maszynowo tłumaczeń została skrupulatnie oceniona przez zawodowych tłumaczy starannie wybranych na potrzeby procesu weryfikacji. Aby zapewnić obiektywizm i wyeliminować stronniczość, zastosowaliśmy metodę podwójnie ślepej próby: recenzenci nie byli świadomi, który silnik tłumaczenia maszynowego wygenerował każde tłumaczenie, i nie byli informowani o ocenach innych recenzentów. Takie podejście pozwoliło na bezstronną i sprawiedliwą ocenę wyników każdego systemu.
Konfiguracja oceny
Wybraliśmy 300 rzeczywistych zdań z aktywnych projektów tłumaczeniowych w trzech branżach: turystyka, finanse i technologia. Ocena koncentrowała się na pomiarze dokładności następujących modeli tłumaczenia maszynowego:
- Lara
- Tłumacz Google
- DeepL
- GPT-4o firmy OpenAI (z zastosowaniem podejścia opartego na 5 próbach, które obejmuje dostarczenie pięciu przykładowych tłumaczeń na podstawie podpowiedzi w celu poprowadzenia modelu i ulepszenia wyników)
Proces oceny
Wybór zawodowych tłumaczy
Aby ocenić jakość tłumaczenia, wybraliśmy najlepszych zawodowych tłumaczy z sieci obejmującej 500 000 osób za pomocą T-Rank – systemu rankingowego opartego na sztucznej inteligencji opracowanego przez Translated. T-Rank pomaga wybrać najlepszych zawodowych tłumaczy mających kwalifikacje w danej dziedzinie, oceniając ich wcześniejsze wyniki i wiedzę fachową na podstawie ponad 30 kryteriów. Dzięki temu mieliśmy pewność, że do oceny wybraliśmy wysoko wykwalifikowanych tłumaczy, dla których język docelowy jest językiem ojczystym.
Ocena przez człowieka
Trzech zawodowych tłumaczy, których językiem ojczystym jest język docelowy, zostało niezależnie przydzielonych do korekty każdego przetłumaczonego zdania w poszczególnych językach docelowych. Tłumacze nie wiedzieli, który model wykonał tłumaczenia, co pozwoliło uzyskać bezstronną ocenę.
Zgoda większości
Jeśli co najmniej dwóch z trzech tłumaczy zgodziło się, że tłumaczenie nadaje się do profesjonalnego użytku, model otrzymywał jeden punkt za to zdanie. Metoda ta ograniczała subiektywność i stawiała na konsensus.
Metodologia punktacji
Ostateczny wynik dla każdego silnika reprezentuje odsetek przypadków, w których większość oceniających zatwierdziła tłumaczenie. Takie podejście odzwierciedla spójność i rzetelność każdego modelu MT w tłumaczeniu profesjonalnych treści.
Wyniki
Poniższe wykresy przedstawiają wyniki czterech silników MT w trzech dziedzinach. Lara wykazała wyższą dokładność, osiągając wynik 65%, podczas gdy inne modele, w tym Tłumacz Google, DeepL i GPT-4, uzyskały wyniki w zakresie od 54% do 58%. Pokazuje to niezmiennie lepsze wyniki Lary we wszystkich dziedzinach.
* Odsetek przypadków, w których co najmniej 2 z 3 zawodowych tłumaczy zgodziło się, że tłumaczenie było dokładne, na podstawie 2700 tłumaczeń z języka angielskiego na włoski, francuski, hiszpański, niemiecki, portugalski, japoński, chiński, rosyjski i koreański.
Ocena dokładności Lary w porównaniu z zawodowymi tłumaczami
* Odsetek przypadków, w których co najmniej 2 z 3 zawodowych tłumaczy zgodziło się, że tłumaczenie było dokładne, na podstawie 2700 tłumaczeń z języka angielskiego na włoski, francuski, hiszpański, niemiecki, portugalski, japoński, chiński, rosyjski i koreański.
Śledzimy postępy Lary poprzez regularną ocenę przez ludzi. Jednym z podstawowych wskaźników, których używamy, jest liczba błędów na tysiąc słów (EPT lub EPTW). Ten wskaźnik pomaga nam ocenić dokładność tłumaczenia, obliczając liczbę błędów na tysiąc słów przetłumaczonej treści. Korzystając z EPT, możemy obiektywnie zmierzyć wyniki Lary i zidentyfikować obszary wymagające poprawy.
Konfiguracja oceny
W tej ocenie skupiliśmy się na treściach generowanych przez użytkowników, w tym czatach, opiniach i opisach produktów. Przetłumaczyliśmy treść za pomocą Lary, a także zatrudniliśmy zawodowych tłumaczy wybranych z mediany i 1 percentyla najlepszych lingwistów w naszej sieci, aby przetłumaczyli te same treści bez użycia programów do tłumaczenia maszynowego. Wszystkie tłumaczenia zostały następnie sprawdzone przez zawodowych tłumaczy wybranych specjalnie na potrzeby procesu weryfikacji w celu wskazania błędów w tłumaczeniu.
Proces oceny
Wybór treści
Wybraliśmy różnorodne materiały generowane przez użytkowników, w tym transkrypcje czatów, opinie klientów i szczegółowe opisy produktów, aby kompleksowo ocenić tłumaczenie różnych typów treści.
Tłumaczenie
Wybrana treść została najpierw przetłumaczona za pomocą Lary. Równolegle poprosiliśmy zawodowych tłumaczy z naszej sieci do przetłumaczenia tego samego zestawu treści bez pomocy narzędzi do tłumaczenia maszynowego. Zostali oni starannie wybrani spośród mediany i 1 percentyla najlepszych, aby zapewnić szeroką reprezentację jakości tłumaczenia przez ludzi.
Wykrywanie błędów
Niezależnie od zastosowanej metody, wszystkie tłumaczenia przeszły rygorystyczny proces korekty przeprowadzony przez oddzielny zespół zawodowych tłumaczy. Redaktorzy zostali specjalnie wybrani ze względu na swoją wiedzę specjalistyczną i mieli za zadanie wskazać błędy w tłumaczeniu bez znajomości źródła tłumaczenia. Dotyczyło to na przykład błędów gramatycznych, tłumaczeniowych i pominięć. Ten krok był konsekwentnie stosowany w przypadku Lary i profesjonalnych tłumaczeń.
Obliczenia EPT
Wynik EPT uśredniono, łącząc wyniki z wielu tłumaczeń. Wynik ten odzwierciedla częstotliwość błędów i pozwala nam monitorować poprawę wyników Lary.
Ocena następnej wersji Lary
Zastosowaliśmy ten sam proces oceny EPT do wersji alfa następnego modelu Lary, którego premiera jest planowana na 2025 rok. Pomogło nam to zmierzyć wpływ wczesnych ulepszeń w nowej wersji i porównać jej wyniki z obecną iteracją. Dzięki śledzeniu tych postępów mamy wartościowy wgląd w to, jak Lara poprawia dokładność tłumaczeń.
Wyniki
Wyniki EPT pokazują stałe udoskonalanie Lary poprzez zmniejszanie liczby błędów w tłumaczeniach w wielu dziedzinach. Wyniki wyraźnie odzwierciedlają postępy Lary w kierunku osiągnięcia punktu osobliwości językowej.
Język jest najważniejszym czynnikiem ewolucji człowieka. Dzięki językowi możemy rozumieć się nawzajem i współpracować w celu zbudowania lepszej przyszłości. Złożony język pozwolił nam rozwijać się szybciej niż jakiemukolwiek innemu gatunkowi.
Umożliwiając każdemu rozumienie i bycie rozumianym w swoim języku ojczystym, rozpoczynamy kolejny etap ewolucji człowieka. Wierzymy w ludzki potencjał.