Um avaliação completa das capacidades de tradução da Lara

Para avaliar o desempenho da Lara, traduzimos 300 frases do inglês para os idiomas mais frequentes em projetos de localização usando a Lara e diferentes sistemas de tradução automática. Em seguida, pedimos a tradutores profissionais que avaliassem a precisão de cada tradução. Também pedimos que eles identificassem erros tanto nas traduções feitas pela Lara quanto nas realizadas por seus colegas, focando nos tradutores de nível intermediário e do 1% com o melhor desempenho na nossa rede de tradutores profissionais.

Avaliação da precisão da Lara em comparação com outros sistemas de tradução automática

Os tradutores profissionais preferem a LaraQualidade* (%)40%30%60%50%70%80%FinançasTecnologiaTurismoGeralLaraOpenAI’s GPT-4oGoogle TranslateDeepL

*Percentual de tempo em que pelo menos dois em cada três tradutores profissionais concordaram que uma tradução era precisa, considerando 2,7 mil traduções realizadas do inglês para o italiano, francês, espanhol, alemão, português, japonês, chinês, russo e coreano.

Elaboramos esta avaliação para comparar o desempenho de diversos sistemas de tradução automática usando conteúdos reais fornecidos por empresas. O conjunto de testes foi composto por 2,7 mil frases, formadas a partir de 300 frases originais em inglês, traduzidas por sistemas de tradução automática para nove dos idiomas mais frequentes em projetos de localização: italiano, francês, espanhol, alemão, português, japonês, chinês, russo e coreano. A precisão dessas traduções automáticas foi rigorosamente avaliada por tradutores profissionais escolhidos a dedo para o processo de avaliação. Para garantir a objetividade e eliminar vieses, adotamos um método duplo-cego: os avaliadores não tinham conhecimento de qual sistema de tradução automática gerou cada tradução e não foram informados sobre as avaliações dos demais revisores. Essa abordagem permitiu uma avaliação imparcial e justa do desempenho de cada sistema.

Preparação da avaliação

Selecionamos 300 frases reais de projetos de tradução ativos em três setores: turismo, finanças e tecnologia. A avaliação teve como foco medir a precisão dos seguintes modelos de tradução automática:

  • Lara
  • Google Tradutor
  • DeepL
  • GPT-4 da OpenAI (usando uma abordagem de aprendizagem em cinco etapas, que consiste em fornecer cinco exemplos de traduções no comando para orientar e aprimorar o desempenho do modelo)

Processo de avaliação

Seleção de tradutores profissionais

Para avaliar a qualidade da tradução, selecionamos tradutores profissionais de alto desempenho de uma rede de 500 mil membros usando o T-Rank, um sistema de classificação baseado em inteligência artificial desenvolvido pela Translated. O T-Rank ajuda a selecionar tradutores profissionais qualificados e de alto desempenho, avaliando seu desempenho e experiência anteriores em mais de 30 critérios. Assim, garantimos que os tradutores escolhidos para a avaliação fossem falantes nativos altamente qualificados dos idiomas de destino.

Avaliação humana

Designamos três tradutores nativos profissionais para revisar de forma independente cada frase traduzida em cada idioma de destino. Os tradutores não sabiam qual modelo gerou as traduções, garantindo uma avaliação imparcial.

Concordância da maioria

Se pelo menos dois dos três tradutores concordassem que uma tradução era apropriada para uso profissional, o modelo recebia um ponto pela frase em questão. Esse método minimizou a subjetividade e priorizou o consenso.

Metodologia de pontuação

A pontuação final de cada sistema reflete a porcentagem de casos em que a maioria dos avaliadores aprovou a tradução. Essa abordagem demonstra a consistência e a confiabilidade de cada modelo de tradução automática na tradução de conteúdos profissionais.

Resultados

Os gráficos a seguir mostram o desempenho dos quatro motores de tradução automática em três áreas. A Lara demonstrou uma maior precisão, com uma pontuação de 65%, enquanto outros modelos, como Google Translate, DeepL e GPT-4, obtiveram pontuações que variaram de 54% a 58%. Os resultados evidenciam o desempenho consistentemente superior da Lara em todas as áreas.

LaraOpenAI’s GPT-4oGoogle TranslateDeepL
EN → DEQualidade* (%)50%40%70%60%80%90%FinançasTecnologiaTurismoGeral
EN → ESQualidade* (%)60%40%100%80%FinançasTecnologiaTurismoGeral
EN → FRQualidade* (%)40%30%60%50%70%80%FinançasTecnologiaTurismoGeral
EN → ITQualidade* (%)40%20%100%80%60%FinançasTecnologiaTurismoGeral
EN → JAQualidade* (%)50%30%90%70%FinançasTecnologiaTurismoGeral
EN → KOQualidade* (%)40%20%80%60%FinançasTecnologiaTurismoGeral
EN → PTQualidade* (%)40%20%100%80%60%FinançasTecnologiaTurismoGeral
EN → RUQualidade* (%)20%0%80%60%40%FinançasTecnologiaTurismoGeral
EN → ZHQualidade* (%)40%30%60%50%70%80%FinançasTecnologiaTurismoGeral

*Percentual de tempo em que pelo menos dois em cada três tradutores profissionais concordaram que uma tradução era precisa, considerando 2,7 mil traduções realizadas do inglês para o italiano, francês, espanhol, alemão, português, japonês, chinês, russo e coreano.

Avaliação da precisão da Lara em comparação com tradutores profissionais

Nosso progresso em direção à singularidade linguísticaJaneiro de 2024Janeiro de 2025Language SingularitySistema convencional de tradução automáticaLara Grande012610842LaraTradutor profissional médioTradutor profissional no 1% dos melhores profissionaisErrors per 1,000 Words *

*Percentual de tempo em que pelo menos dois em cada três tradutores profissionais concordaram que uma tradução era precisa, considerando 2,7 mil traduções realizadas do inglês para o italiano, francês, espanhol, alemão, português, japonês, chinês, russo e coreano.

Monitoramos o progresso da Lara por meio de avaliações regulares realizadas por humanos. Uma das principais métricas que usamos são os erros por cada mil palavras (EPT ou EPTW). Essa métrica nos permite avaliar a precisão da tradução ao calcular o número de erros por cada mil palavras de conteúdo traduzido. Usando o EPT, podemos medir de forma objetiva o desempenho da Lara e identificar pontos que precisam ser melhorados.

Preparação da avaliação

Nesta avaliação, focamos no conteúdo gerado por usuários, que inclui chats, comentários e descrições de produtos. Traduzimos o conteúdo com a Lara e também contamos com tradutores profissionais de nível intermediário e do 1% com o melhor desempenho na nossa rede para traduzir o mesmo conteúdo sem usar tradução automática. Todas as traduções foram então revisadas por tradutores profissionais escolhidos especificamente para esse processo, com o objetivo de identificar erros de tradução.

Processo de avaliação

Seleção do conteúdo

Selecionamos uma variedade diversificada de materiais gerados por usuários, incluindo transcrições de chat, comentários de clientes e descrições detalhadas de produtos, para avaliar de forma abrangente o desempenho da tradução em diferentes tipos de conteúdo.

Tradução

O conteúdo selecionado foi traduzido inicialmente com a Lara. Em paralelo, contratamos tradutores profissionais da nossa rede para traduzir o mesmo conteúdo sem a ajuda de ferramentas de tradução automática. Os tradutores foram criteriosamente selecionados entre aqueles de nível intermediário e o 1% com o melhor desempenho, garantindo uma ampla representação da qualidade da tradução humana.

Detecção de erros

Independentemente do método utilizado, todas as traduções passaram por um rigoroso processo de revisão conduzido por uma equipe independente de tradutores profissionais. Os revisores foram selecionados com base em sua experiência e encarregados de identificar erros de tradução sem ter conhecimento da origem das traduções. Esses erros abrangiam questões como erros gramaticais, erros de tradução e omissões. Essa etapa foi aplicada de maneira consistente tanto nas traduções da Lara quanto nas traduções realizadas por profissionais.

Cálculo do EPT

A pontuação do EPT foi calculada ao combinar os resultados de diferentes traduções. A pontuação representa a frequência de erros e nos permite monitorar melhorias no desempenho da Lara.

Avaliação da próxima versão da Lara

Aplicamos o mesmo processo de avaliação do EPT ao modelo alfa do próximo lançamento da Lara, previsto para 2025. Isso nos permitiu avaliar as melhorias iniciais na nova versão e comparar seu desempenho com o modelo atual. O monitoramento desses progressos nos fornece informações valiosas sobre a evolução da Lara, visando alcançar uma maior precisão nas traduções.

Resultados

Os resultados do EPT revelam a melhoria contínua da Lara na redução de erros de tradução em diversas áreas. Os resultados refletem de forma clara o progresso de Lara em direção à singularidade linguística.

A linguagem tem sido o fator mais importante na evolução humana. É graças à linguagem que conseguimos nos entender e colaborar para construir um futuro melhor. A linguagem complexa nos permitiu avançar mais rapidamente do que qualquer outra espécie.

Ao possibilitar que todos compreendam e sejam compreendidos no seu próprio idioma, estamos abrindo caminho para o próximo estágio da evolução humana. We believe in humans.