Lara의 번역 역량에 대한 종합 평가
우리는 Lara의 성능을 평가하기 위 해 Lara와 다양한 기계 번역 시스템을 사용하여 300개의 영어 문장을 가장 일반적으로 사용되는 언어로 번역했습니다. 그런 다음 전문 번역가에게 각 번역의 정확성을 평가하도록 요청하였습니다. 또한 전문 번역가에게 Lara의 번역뿐만 아니라 동료 번역가(특히 전문 번역가 네트워크의 중앙값 및 상위 1%에 해당하는 번역가들)가 수행한 번역에 대해 오류를 표시하도록 요청했습니다.
다른 기계 번역 시스템과 비교 평가한 Lara의 정확성
* 전문 번역사 3명 중 2명 이상이 영어에서 이탈리아어, 프랑스어, 스페인어, 독일어, 포르투갈어, 일본어, 중국어, 러시아어, 한국어로 번역된 2,700개의 텍스트가 정확하다는 데 동의한 횟수의 비율입니다.
우리는 실제 엔터프라이즈급 콘텐츠를 사용하여 다양한 기계 번역 엔진의 성능을 비교할 수 있도록 이 평가를 설계했습니다. 테스트 세트는 2,700개의 문장으로 구성되었으며, 300개의 영어 원문 문장을 기계 번역 시스템이 번역 요청 빈도가 가장 높은 9개 언어(이탈리아어, 프랑스어, 스페인어, 독일어, 포르투갈어, 일본어, 중국어, 러시아어, 한국어)로 번역하였습니다. 검토 프로세스를 위해 신중하게 선정된 전문 번역가들이 이러한 기계 생성 번역의 정확성을 세심하게 평가하 였습니다. 객관성을 확보하고 편향을 제거하기 위해 우리는 검토자가 각 번역을 생성한 기계 번역 엔진을 알지 못하도록 하고 다른 검토자의 평가도 알 수 없도록 하는 이중 블라인드 테스트 방식을 사용하였습니다. 이러한 접근법을 통해 각 시스템의 성능에 대해 편향 없이 공정하게 평가할 수 있었습니다.
평가 설정
우리는 관광, 금융, 기술의 세 가지 산업에서 진행 중인 번역 프로젝트로부터 실제 문장 300개를 선정하였습니다. 평가는 다음 기계 번역 모델의 정확성을 측정하는 데 중점을 두었습니다.
- Lara
- Google Translate
- DeepL
- OpenAI의 GPT-4o(모델의 번역 성능을 가이드하고 향상시키기 위해 프롬프트 내에 다섯 개의 번역 예를 제공하는 5샷 학습 접근 방식 사용)
평가 프로세스
전문 번역가 선정
번역 품질을 평가하기 위해 우리는 Translated에서 개발한 AI 기반 랭킹 시스템인 T-Rank를 사용하여 50만 명의 네트워크에서 최고의 성과를 보여주는 전문 번역가를 선정하였습니다. T-Rank는 30개 이상의 기준에 따라 과거의 성과와 전문성을 평가하여 최고의 성과를 내고 담당 분야에 대한 지식을 갖춘 전문 번역가를 선정하는 데 도움을 줍니다. 이를 통해 목표 언어에서 우수한 자격을 갖춘 원어민 번역가가 평가자로 선정되도록 보장되었습니다.
인간에 의한 평가
각 목표 언어로 번역된 문장을 검토하기 위해 세 명의 전문 원어민 번역가가 독립적으로 배정되었습니다. 또한 어떤 모델이 번역을 생성했는지 번역가가 알지 못하도록 하여 평가가 편향되지 않도록 하였습니다.
다수결 동의
번역가 세 명 중 두 명 이상이 전문적인 용도로 번역이 적합하다고 동의한 경우, 모델은 해당 문장에 대해 1점을 받았습니다. 이 방법을 통해 주관성을 줄이고 합의를 강조할 수 있었습니다.
채점 방식
각 엔진의 최종 점수는 대부분의 평가자가 번역을 승인한 사례의 비율을 나타냅니다. 이 접근법은 전문적인 콘텐츠 번역에 대한 각 기계 번역 모델의 일관성과 신뢰성을 반영합니다.
결과
아래 차트는 세 가지 분야에서 네 개의 기계 번역 엔진이 보여 준 성능을 시각화한 것입니다. Lara는 65%의 점수로 더 높은 정확도를 보인 반면, Google Translate, DeepL, GPT-4를 포함한 다른 모델은 54%에서 58%의 점수를 보였습니다. 이러한 결과는 Lara가 세 분야 모두에서 일관되게 우수한 성능을 발휘했다는 것을 보여 줍니다.
* 전문 번역사 3명 중 2명 이상이 영어에서 이탈리아어, 프랑스어, 스페인어, 독일어, 포르투갈어, 일본어, 중국어, 러시아어, 한국어로 번역된 2,700개의 텍스트가 정확하다는 데 동의한 횟수의 비율입니다.
전문 번역가와 비교한 Lara의 정확도 평가
* 전문 번역사 3명 중 2명 이상이 영어에서 이탈리아어, 프랑스어, 스페인어, 독일어, 포르투갈어, 일본어, 중국어, 러시아어, 한국어로 번역된 2,700개의 텍스트가 정확하다는 데 동의한 횟수의 비율입니다.
우리는 사람이 주기적으로 채점하는 방법을 통해 Lara의 발전 수준을 추적합니다. 우리가 사용하는 주요 지표 중 하나는 1,000단어당 오류 수(EPT 또는 EPTW)입니다. 이 지표는 번역된 콘텐츠에서 1,000단어당 오류 수를 계산하여 번역의 정확도를 평가합니다. EPT를 사용하여 Lara의 성능을 객관적으로 측정하고 개선해야 할 부분을 파악할 수 있습니다.
평가 설정
이 평가에서는 채팅, 리뷰, 제품 설명 등 사용자 생성 콘텐츠에 중점을 두었습니다. 우리는 Lara를 사용하여 콘텐츠를 번역하였으며, 동시에 기계 번역을 사용하지 않고 동일한 콘텐츠를 번역하기 위해 내부 네트워크의 중앙값 및 상위 1백분위수에서 선정된 전문 번역가를 투입하였습니다. 검토 프로세스를 위해 특별히 선정된 전문 번역가들은 모든 번역을 검토하여 번역 오류를 집중적으로 살펴보았습니다.
평가 프로세스
콘텐츠 선정
우리는 다양한 콘텐츠 유형에 대한 번역 성능을 종합적으로 평가하기 위해 채팅 대화록, 고객 리뷰, 제품 상세 설명 등 다양한 사용자 생성 자료를 선택하였습니다.
번역
먼저 Lara를 사용하여 선정된 콘텐츠를 번역하였습니다. 이와 동시에, 기계 번역 도구의 도움 없이 동일한 콘텐츠를 번역하기 위해 내부 네트워크의 전문 번역가를 투입하였습니다. 번역가들은 인간 번역의 다양한 품질을 반영하기 위해 중간 성과자와 상위 1백분위수에서 신중하게 선정되었습니다.
오류 검출
사용된 방법에 관계없이 모든 번역은 별도의 전문 번역가 팀이 수행한 엄격한 검토 프로세스를 거쳤습니다. 검토자들은 전문성을 고려하여 특별히 선정되었으며 번역의 출처를 모르는 상태에서 번역 오류를 집중적으로 살펴보는 일을 맡았습니다. 이러한 오류에는 문법 실수, 오역 및 누락과 같은 문제가 포함되었습니다. 이 단계는 Lara의 번역과 전문가 번역에 일관되게 적용되었습니다.
EPT 계산
EPT 점수는 여러 번역의 결과를 합산하여 평균으로 계산하였습니다. 이 점수는 오류 빈도를 나타내며 이를 통해 Lara의 성능 향상을 모니터링할 수 있습니다.
Lara의 차기 버전 평가
우리는 2025년 출시를 목표로 계획 중인 차기 Lara 모델의 알파 모델에 동일한 EPT 평가 프로세스 를 적용하였습니다. 이를 통해 새 버전의 초기 개선 사항을 측정하고 현재 버전과 성능을 비교할 수 있었습니다. 이러한 발전 과정을 추적함으로써 Lara가 더 높은 번역 정확도라는 목표를 향해 얼마나 더 나아가는지에 대해 귀중한 통찰력을 얻을 수 있습니다.
결과
EPT 결과는 여러 영역에서 번역 오류를 줄이는 데 있어 Lara의 성능이 꾸준히 개선되고 있다는 것을 보여줍니다. 이 결과는 언어 특이점을 향한 Lara의 진전을 뚜렷하게 보여 줍니다.