Eine umfassende Bewertung der Übersetzungsfähigkeiten von Lara

Um die Leistung von Lara zu bewerten, haben wir mit ihr und verschiedenen MT-Systemen 300 Sätze aus dem Englischen in die Sprachen übersetzt, die bei Lokalisierungen am häufigsten benötigt werden. Anschließend haben wir professionelle Übersetzer gebeten, die Genauigkeit jeder Übersetzung zu beurteilen. Zusätzlich haben wir professionelle Übersetzer gebeten, Fehler in Laras Übersetzungen sowie in den Übersetzungen ihrer Kollegen zu identifizieren. Besonderes Augenmerk lag dabei auf den Übersetzungen auf mittlerem Niveau und den besten 1 % unseres Netzwerks von professionellen Übersetzern.

Die Bewertung von Laras Genauigkeit im Vergleich zu anderen MT-Systemen

Professionelle Übersetzer ziehen Lara vorQualität* (%)40%30%60%50%70%80%FinanzenTechnologieTourismusAllgemeinesLaraOpenAI’s GPT-4oGoogle TranslateDeepL

* Prozentualer Anteil der Fälle, in der mindestens 2 von 3 professionellen Übersetzern der Meinung waren, dass eine Übersetzung korrekt war. Dies betrifft 2.700 Übersetzungen aus dem Englischen ins Italienische, Französische, Spanische, Deutsche, Portugiesische, Japanische, Chinesische, Russische und Koreanische.

Wir haben diese Bewertung entwickelt, um die Leistung verschiedener maschineller Übersetzungsmaschinen anhand von realen, unternehmensrelevanten Inhalten zu vergleichen. Unser Testdatensatz bestand aus 2.700 Sätzen, darunter 300 englische Quellsätze, die von maschinellen Übersetzungssystemen in neun der am häufigsten angeforderten Lokalisierungssprachen übersetzt wurden: Italienisch, Französisch, Spanisch, Deutsch, Portugiesisch, Japanisch, Chinesisch, Russisch und Koreanisch. Die Genauigkeit dieser maschinengenerierten Übersetzungen wurde sorgfältig von professionellen Übersetzern bewertet, die gezielt für den Überprüfungsprozess ausgewählt wurden. Um Objektivität zu gewährleisten und Verzerrungen auszuschließen, haben wir ein Doppelblindverfahren angewendet: Die Prüfer wussten nicht, welches maschinelle Übersetzungssystem jede Übersetzung erstellt hatte, und sie wurden nicht über die Bewertungen der anderen Prüfer informiert. Dieser Ansatz ermöglichte eine unvoreingenommene und faire Bewertung der Leistung jedes Systems.

Evaluierungsaufbau

Wir haben 300 reale Sätze aus aktiven Übersetzungsprojekten aus drei Branchen ausgewählt: Tourismus, Finanzen und Technologie. Der Schwerpunkt der Evaluierung lag auf der Messung der Genauigkeit der folgenden maschinellen Übersetzungsmodelle:

  • Lara
  • Google Translate
  • DeepL
  • GPT-4o von OpenAI (mit einem 5-Shot-Lernansatz, bei dem fünf Beispielübersetzungen innerhalb der Eingabeaufforderung bereitgestellt werden, um die Übersetzungsleistung des Modells zu steuern und zu verbessern)

Bewertungsprozess

Auswahl professioneller Übersetzer

Um die Qualität der Übersetzungen zu beurteilen, haben wir mithilfe von T-Rank (einem KI-gesteuerten Ranking-System, das von Translated entwickelt wurde) die leistungsstärksten professionellen Übersetzer aus einem Netzwerk von 500.000 Übersetzern ausgewählt. T-Rank hilft bei der Auswahl der leistungsstärksten und fachkundigsten professionellen Übersetzer, indem es ihre bisherige Leistung und Fachkompetenz anhand von mehr als 30 Kriterien bewertet. Dadurch wurde sichergestellt, dass für die Evaluierung ausschließlich hoch qualifizierte Muttersprachler mit der jeweiligen Zielsprache ausgewählt wurden.

Menschliche Evaluierung

Drei professionelle muttersprachliche Übersetzer wurden unabhängig voneinander beauftragt, jeden übersetzten Satz für jede Zielsprache zu überprüfen. Die Übersetzer wussten nicht, welches Modell die Übersetzungen erstellt hatte, um eine unvoreingenommene Bewertung zu gewährleisten.

Mehrheitsbeschluss

Wenn sich mindestens zwei von drei Übersetzern einig waren, dass eine Übersetzung für den professionellen Gebrauch geeignet war, erhielt das Modell einen Punkt für diesen Satz. Diese Methode reduzierte die Subjektivität und betonte den Konsens.

Bewertungsmethode

Die endgültige Punktzahl für jedes maschinelle Übersetzungssystem stellt den Prozentsatz der Fälle dar, in denen die meisten Prüfer der Übersetzung zugestimmt haben. Dieser Ansatz spiegelt die Konsistenz und Zuverlässigkeit jedes MT-Modells bei der Übersetzung professioneller Inhalte wider.

Ergebnisse

Die folgenden Diagramme veranschaulichen die Leistung der vier MT-Systeme in den drei Themenbereichen. Lara zeigte mit einem Ergebnis von 65 % eine höhere Genauigkeit, während andere Modelle, einschließlich Google Translate, DeepL und GPT-4, Werte zwischen 54 % und 58 % erzielten. Diese Ergebnisse zeigen die durchweg überlegene Leistung von Lara in allen Bereichen.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEQualität* (%)50%40%70%60%80%90%FinanzenTechnologieTourismusAllgemeines
EN → ESQualität* (%)60%40%100%80%FinanzenTechnologieTourismusAllgemeines
EN → FRQualität* (%)40%30%60%50%70%80%FinanzenTechnologieTourismusAllgemeines
EN → ITQualität* (%)40%20%100%80%60%FinanzenTechnologieTourismusAllgemeines
EN → JAQualität* (%)50%30%90%70%FinanzenTechnologieTourismusAllgemeines
EN → KOQualität* (%)40%20%80%60%FinanzenTechnologieTourismusAllgemeines
EN → PTQualität* (%)40%20%100%80%60%FinanzenTechnologieTourismusAllgemeines
EN → RUQualität* (%)20%0%80%60%40%FinanzenTechnologieTourismusAllgemeines
EN → ZHQualität* (%)40%30%60%50%70%80%FinanzenTechnologieTourismusAllgemeines

* Prozentualer Anteil der Fälle, in der mindestens 2 von 3 professionellen Übersetzern der Meinung waren, dass eine Übersetzung korrekt war. Dies betrifft 2.700 Übersetzungen aus dem Englischen ins Italienische, Französische, Spanische, Deutsche, Portugiesische, Japanische, Chinesische, Russische und Koreanische.

Bewertung der Genauigkeit von Lara im Vergleich zu professionellen Übersetzern

Unser Fortschritt auf dem Weg zur sprachlichen SingularitätJanuar 2024Januar 2025Language SingularityTypisches maschinelles ÜbersetzungssystemLara Grande012610842LaraMedian aller professionellen ÜbersetzerDie besten 1 % aller professionellen ÜbersetzerErrors per 1,000 Words *

* Prozentualer Anteil der Fälle, in der mindestens 2 von 3 professionellen Übersetzern der Meinung waren, dass eine Übersetzung korrekt war. Dies betrifft 2.700 Übersetzungen aus dem Englischen ins Italienische, Französische, Spanische, Deutsche, Portugiesische, Japanische, Chinesische, Russische und Koreanische.

Wir verfolgen Laras Fortschritt durch regelmäßige menschliche Bewertungen. Eine der wichtigsten Metriken, die wir verwenden, sind Fehler pro tausend Wörter (Errors per Thousand Words, EPT oder EPTW). Diese Metrik hilft uns, die Genauigkeit der Übersetzung zu bewerten, indem wir die Anzahl der Fehler pro tausend Wörter des übersetzten Inhalts berechnen. Anhand von EPT können wir die Leistung von Lara objektiv messen und Bereiche identifizieren, die optimiert werden können.

Evaluierungsaufbau

In dieser Evaluierung haben wir uns auf nutzergenerierte Inhalte konzentriert, einschließlich Chats, Bewertungen und Produktbeschreibungen. Wir haben den Inhalt mit Lara übersetzt und zusätzlich professionelle Übersetzer aus dem Median und dem obersten 1. Perzentil unseres Netzwerks beauftragt, denselben Inhalt ohne maschinelle Übersetzung zu übersetzen. Alle Übersetzungen wurden anschließend von professionellen Übersetzern geprüft, die speziell für den Prüfungsprozess ausgewählt wurden, um etwaige Übersetzungsfehler hervorzuheben.

Bewertungsprozess

Auswahl der Inhalte

Wir haben eine vielfältige Auswahl an benutzergenerierten Materialien getroffen, darunter Chat-Protokolle, Kundenbewertungen und detaillierte Produktbeschreibungen, um die Übersetzungsleistung für verschiedene Inhaltstypen umfassend zu bewerten.

Übersetzung

Der ausgewählte Inhalt wurde zuerst mit Lara übersetzt. Parallel dazu haben wir professionelle Übersetzer aus unserem Netzwerk beauftragt, die gleichen Inhalte ohne die Hilfe von maschinellen Übersetzungstools zu übersetzen. Diese Übersetzer wurden sorgfältig aus den Reihen der durchschnittlichen Übersetzer und des oberen 1-Perzentils ausgewählt, um eine möglichst breite Darstellung der Qualität menschlicher Übersetzungen zu gewährleisten.

Fehlererkennung

Unabhängig von der verwendeten Methode wurden alle Übersetzungen einem strengen Überprüfungsprozess unterzogen, der von einem separaten Team professioneller Übersetzer durchgeführt wurde. Diese Prüfer wurden speziell für ihr Fachwissen ausgewählt und damit beauftragt, Übersetzungsfehler hervorzuheben, ohne die Quelle der Übersetzungen zu kennen. Zu diesen Fehlern gehörten beispielsweise Grammatikfehler, Fehlübersetzungen und Auslassungen. Dieser Schritt wurde konsequent auf Lara und professionelle Übersetzungen angewendet.

EPT-Berechnung

Der EPT-Wert wurde durch die Kombination der Ergebnisse mehrerer Übersetzungen gemittelt. Dieser Wert stellt die Fehlerhäufigkeit dar und ermöglicht es uns, Verbesserungen in Laras Leistung zu überwachen.

Evaluierung der nächsten Version von Lara

Wir haben den gleichen EPT-Evaluierungsprozess auf das Alpha-Modell von Laras nächstem geplanten Modell angewendet, das für 2025 erwartet wird. Dies half uns, die frühen Verbesserungen der neuen Version zu messen und ihre Leistung mit der aktuellen Iteration zu vergleichen. Die Verfolgung dieses Fortschritts gibt uns wertvolle Einblicke, wie Lara sich in Richtung höherer Übersetzungsgenauigkeit weiterentwickelt.

Ergebnisse

Die EPT-Ergebnisse zeigen Laras stetige Verbesserung bei der Reduzierung von Übersetzungsfehlern über mehrere Themenbereiche hinweg. Die Ergebnisse spiegeln deutlich Laras Fortschritt in Richtung Sprachsingularität wider.

Sprache war der wichtigste Faktor in der menschlichen Evolution. Durch Sprache können wir einander verstehen und zusammenarbeiten, um eine bessere Zukunft zu schaffen. Komplexe Sprache hat es uns ermöglicht, uns schneller weiterzuentwickeln als jede andere Spezies.

Indem wir es allen Menschen ermöglichen, in ihrer Muttersprache zu verstehen und verstanden zu werden, ebnen wir den Weg für die nächste Stufe der menschlichen Evolution. We believe in humans.