이것은 해설만큼 답이 될 수 없습니다.
품질은 (아론이 위에서 말했듯이) 1) 언어 쌍과 2) 주제뿐만 아니라 3) 속과 4) 원본의 스타일과 5) 당신이 가지고있는 병렬 텍스트의 양을 포함하여 여러 가지에 달려 있습니다. MT 시스템을 훈련시킵니다.
무대를 설정하기 위해 요즘 거의 모든 MT는 병렬 텍스트, 즉 두 개의 다른 언어로 된 텍스트를 기반으로합니다. 하나는 다른 언어의 번역 일 수도 있고 (또는 둘 다 제 3 언어의 번역 일 수도 있습니다); 병렬 텍스트에 특정 단어가 포함되어 있지 않은 경우 사전 (모폴로지 프로세스로 지원됨)을 백오 프로 사용할 수 있습니다.
게다가 다른 사람들이 말했듯이 MT 시스템은 번역하는 텍스트를 전혀 이해하지 못합니다. 단지 문자열, 문자로 구성된 단어 시퀀스를 볼 뿐이며 이전에 번역 된 텍스트에서 유사한 문자열과 시퀀스를 찾습니다. (좋아요, 그것은 그것보다 약간 더 복잡하며 계산 시스템에서 의미를 얻으려는 시도가 있었지만 지금은 대부분 문자열입니다.)
1) 언어가 다릅니다. 일부 언어에는 형태가 많기 때문에 다른 언어가 여러 단어로하는 단일 단어로 작업을 수행합니다. 간단한 예는 스페인어 'cantaremos'= 영어 "우리는 노래 할 것"입니다. 그리고 한 언어는 스페인어의 비공식 / 공식 (tu / usted) 구별과 같이 다른 언어가 방해하지 않는 것을 할 수 있습니다. 또는 한 언어가 단어 순서로 다른 언어가하는 형태학을 수행 할 수 있습니다. 또는 언어에서 사용하는 스크립트는 단어 경계 (중국어 및 기타 단어)를 표시하지 않을 수도 있습니다. 두 언어가 다를수록 MT 시스템이 두 언어를 번역하기가 더 어려워집니다. 통계적 MT의 첫 번째 실험은 프랑스어와 영어 사이에서 이루어졌으며
2) 주제 : 성경에 평행 한 텍스트가 있고 (이것은 거의 모든 한 쌍의 쓰기 언어에 해당됨) MT 시스템을 그에 대해 훈련시키는 경우 엔지니어링 텍스트에서 잘 작동하지 않을 것으로 예상됩니다. (글쎄, 성경은 MT 시스템 훈련 표준에 따라 상대적으로 적은 양의 텍스트이지만, :-).) 성경의 어휘는 공학 텍스트와 매우 다르며, 다양한 문법의 빈도도 건축. 문법은 기본적으로 동일하지만 영어에서는 과학 및 엔지니어링 텍스트에서 더 수동적 인 음성과 복합 명사를 얻습니다.
3) Genera : 병렬 텍스트가 모두 트랙터 설명서와 같이 선언적이라면 대화 상자에서 결과 MT 시스템을 사용해도 좋은 결과를 얻지 못합니다.
4) 스타일 : 힐러리 vs. 도널드; 에 루다이 트 대 인기. 한 훈련은 다른 훈련에서는 좋은 결과를 얻지 못할 것입니다. 마찬가지로 성인 수준의 소설에서 MT 시스템을 훈련시키고 어린이 책에서 사용합니다.
5) 언어 쌍 : 영어에는 많은 텍스트가 있으며 주어진 영어 텍스트와 유사한 다른 언어로 텍스트를 찾을 가능성은 러시아어와 Igbo에서 병렬 텍스트를 찾을 가능성보다 훨씬 높습니다. (그는 인도 언어와 같은 예외가있을 수 있다고 말했다.) 총괄적으로 MT 시스템을 훈련시켜야 할 병렬 텍스트가 많을수록 더 나은 결과를 얻을 수있다.
요컨대, 언어는 복잡하다 (그래서 내가 언어를 사랑하는 이유). 따라서 MT 시스템이 항상 제대로 작동하지는 않습니다.
BTW, 인간 번역가도 항상 그렇게 잘하지는 않습니다. 10 년 전 또는 2 년 전, 나는 MT 번역을위한 훈련 자료로 사용될 번역사에서 영어로 번역 된 문서를 받고있었습니다. 일부 번역은 이해하기 어려웠으며, 일부 경우에 2 명 이상의 인간 번역가로부터 번역을받은 경우 번역가가 동일한 문서를 읽고 있다고 믿기가 어려웠습니다.
그리고 마지막으로, (거의) 정확한 번역이 하나도 없습니다. 구절을 번역하는 여러 가지 방법이 있으며, 원하는 기능 (문법적 정확성, 스타일, 사용 일관성 등)에 따라 다소 좋을 수 있습니다. "정확도"는 쉽게 측정 할 수 없습니다.