기계 번역의 실제 품질은 무엇입니까?


27

인공 지능 평신도로서 저는 오늘까지 자동화 된 번역의 약속 된 개선에 혼동합니다.

내 인상은 : 아직 갈 길이 멀다. 또는 매우 간단한 위키피디아 기사의 자동 번역 (예 : Google에서 제공 및 제공)이 여전히 어리 석고 읽기 어려우며 읽기 어려우며 부분적으로 만 유용하고 유용한 이유에 대한 다른 설명이 있습니까?

개인적인 취향 (가독성, 도움 및 유용성에 대한 우려)에 따라 달라질 수 있지만 개인적 기대 는 크게 실망합니다.

다른 방법으로 : 그럼에도 불구하고 Google 번역 은 대다수의 사용자에게 읽기 쉽고 유용하며 유용 합니까?

아니면 Google에 업적유지 해야하는 이유가 있습니까 (그리고 사용자에게 보여줄 수있는 최선을 보여주지 않아야 함)?


예비 결과 : 우리는 여전히 현 수준에서만 동등한 지능과 이해로 인공 지능과 대화 할 수있는 능력과는 거리가 멀다. 왜 우리는 두려워해야합니까? 그들은 우리가 아는 것보다 더 많이 알고 있기 때문에 알지 못합니까?


2
특히 현대 기술은 번역 할 텍스트를 이해하려고 시도하지 않기 때문에 기계 번역은 어려운 문제입니다. 그것은 많은 경우에 거의 작동하지만 놀랍게도 실패 할 수 있습니다. 나는 개인적으로 그것을 염두에두고 대부분의 번역이 도움이된다는 것을 알게되었으며, MT 회사들이지지하고 있다고 믿을 이유가 없습니다. 상업적으로 더 민감하지만 일반적인 MT가 아닌 일부 도메인 별 응용 프로그램 일 수 있습니다.
올리버 메이슨

@OliverMason : "현대 기술은 번역 될 텍스트를 이해하려고 시도하지 않습니다"-본질을 말할 수 있습니까? 이것이 MT의 결과를 이해해야하는 방법입니까? 충분히 슬프다. (AI 커뮤니티와의 모순은 매우 환영받을 것입니다!)
Hans-Peter Stricker

1
@ Hans-PeterStricker : Fred Jelinek 이 발사 언어 학자들이 그의 음성 인식기를보다 정확하게 인식했음을 알아 차렸을 때 정말 시작되었습니다 . 그 이후로 다양한 형태의 머신 러닝이 규칙 기반 AI를 능가했으며, 이제 확률 적 수준을 제외하고 대부분의 AI 시스템이 실제로 작동하는 방식에 대한 아이디어가 거의 없습니다.
케빈

2
@ Hans-PeterStricker 현대 AI 시스템을 '이해'라고 생각하는 것은 실제로 도움이되지 않습니다. 입력 세트를 가져 와서 출력 세트를 작성하는 시스템으로 생각하십시오. 입력은 영어 텍스트 일 ​​수 있고 출력은 스페인어 텍스트 일 ​​수 있습니다. 이 시스템은 전체 영어 텍스트와 이에 상응하는 스페인어 텍스트에서이를 '학습'했습니다. 영어를 이해하거나 스페인어를 이해한다는 의미입니까? 그것은 더 철학적 인 질문입니다. 실제로 중요한 것은 어느 정도의 신뢰성으로 영어를 스페인어로 변환 할 수 있다는 것입니다.
Josh Eller

답변에서 가볍게 다뤄 보았지만 대답은 당신이 말하는 언어 쌍에 크게 의존한다는 것을 지적 할 가치가 있다고 생각합니다. 영어 <-> 스페인어의 품질은 영어 <-> 일본어보다 훨씬 높습니다.
mbrig

답변:


21

기계 번역은 인간 번역가만큼이나 좋다고 누가 주장 했습니까? 저에게있어, 35 년 동안 번역 작업을해온 전문 번역가로서 MT는 소스 텍스트의 복잡성에 따라 매일 인간 품질 번역의 생산이 요인 3에서 5로 증가했음을 의미합니다.

외국어 입력의 길이에 따라 MT의 품질이 저하된다는 데 동의하지 않습니다. 시맨틱 및 문법 분석 기능이있는 구식 시스템에서는 사실이었습니다. 나는 모든 오래된 시스템을 알고 있다고 생각하지 않습니다 (Symens는 Danaer의 선물, XL8, Personal Translator 및 Translate와 같이 한 회사에서 다른 회사로 팔린 Siemens의 쓰레기 도구입니다). 나는 28.000 DM (!!!!)을 투자하여 비참하게 실패했습니다.

예를 들어, 문장 :

이 더운 여름날에는 일을해야했고 엉덩이가 아 was습니다.

여러 MT 도구를 사용하여 독일어로 번역 할 수 있습니다.

개인 번역기 20 :

이 문서는 Schmerz im Esel에 있습니다.

프롬프트 :

가장 최근에 슈머 츠 임 에셀 (Schmerz im Esel)과 함께 전쟁을 시작했다.

DeepL :

품질 보증에 관한 정보는 다음과 같습니다.

구글 :

Schmerz im Arsch와 함께 전쟁을 시작하십시오.

오늘날 Google은 일반적으로 읽을 수 있고 거의 정확한 번역을 제공하며 DeepL이 더 좋습니다. 오늘 아침 3 시간 동안 3500 단어를 번역했는데 소스 텍스트에 실수 (중국어로 작성)로 가득 차 있지만 결과는 완벽합니다.


4
독일어에 유창하지 않은 우리에게는 이러한 대안 중 어느 것이 좋거나 나쁘는지는 분명하지 않습니다. "Esel"은 "ass (animal)"을 의미하고 "Arsch"는 "ass (body part)"를 의미합니다. "Qual"의 의미 또는 "ein Schmerz im Arsch"가 수용 가능한지 모르겠습니다.
Stig Hemmer

3
"Schmerz im Esel"은 코믹하고 잘못되었습니다. "Arsch"는 독일어 구어체로는 사용하지 않는 구어체 단어입니다. "Qual"은 "pain"이므로 문장이 실제 통증이 아닌 성가심을 나타내므로 정확하지는 않지만 IMHO가 더 나은 선택입니다.
Oliver Mason

1
@OliverMason Qual는 좋은 번역입니다 : dict.leo.org/englisch-deutsch/qual
Yunzen

4
@OliverMason 저는 독일어 원어민이며 꽤 잘 맞습니다.
Junzen

5
@OliverMason "엉덩이에 통증"은 관용구입니다. "Schmerz im Arsch"는 아닙니다. “Qual”은 영어 숙어를 정확하게 번역 한 것으로, 당신이 말한 것과는 달리 실제적인 육체적 고통을 나타내는 경우는 거의 없습니다 (그리고 마찬가지로“Qual”은 문자적이고 비유적인 고통 일 수 있습니다). 더 이상의 맥락이 없다면 DeepL 번역은 완벽 해 보입니다.
Konrad Rudolph

7

Google 번역 특히 번역이 완벽하지 않다는 것을 알고 텍스트의 의미에 대한 초기 아이디어를 원할 경우 유용합니다 (Google 번역이 때때로 오해의 소지가 있거나 잘못 될 수 있음). 나는 일반적인 문장이나 단어가 아닌 한 매우 긴 텍스트와 비공식적 언어 (또는 속어)를 포함하지 않는 한 번역을 포함하여 Google의 번역 (또는 다른 비 인간 번역가)이 심각한 번역을 수행하는 것을 권장하지 않습니다. 영어이거나 사용자가 통역을 이용할 수 없습니다.

0100100

AI가 다시 의미를 부여 하는 논문 에서, 저자는 번역 작업의 어려움 ( AI- 완전 문제 라고 생각됨)에 대해서도 논의합니다 . 그들은 또한 매우 불량한 결과를 얻는 트랜스포머 (다른 최첨단 기계 번역 모델)에 대해서도 언급합니다 (BLEU 메트릭을 사용하여 평가).

결론적으로, 기계 번역은 어려운 문제이며 현재 기계 번역 시스템은 전문적인 인간 번역기만큼 성능이 좋지 않습니다.


100 BLEU 점수는 인간 금 표준 번역을 의미하는 것이 아니라 참조 번역과 정확히 일치한다는 의미입니다. 문장을 번역하는 방법은 일반적으로 여러 가지가 있기 때문에 사람의 번역조차도 일반적으로 100 BLEU가 없지만 50-60과 비슷합니다.
justhalf

@justhalf 내 답변을 다시 읽으십시오.
nbro

1
답장을 보내 주셔서 감사합니다. 이전의 의견이 무례한 것으로 보이면 죄송합니다. 이전의 의견에서 내 요점은 인간의 번역이 100 점의 BLEU 점을 얻는다는 인상을주는 것이 부정확하다는 것입니다.
justhalf

100

5

당신은 상당히 많은 질문을했으며 그 중 일부는 확실하게 대답 할 수 없습니다. 기계 번역 의 품질 과 역사에 대한 통찰력을주기 위해 강의 에서 제시된 '한 문장 벤치 마크'인 Christopher Manning을 언급하고 싶습니다 . 여기에는 Google Translate 출력과 비교되는 중국어 대 영어 예제가 포함되어 있습니다. 예제의 올바른 번역은 다음과 같습니다.

1519 년에 600 명의 스페인 사람이 멕시코에 상륙하여 수백만 명의 인구로 아즈텍 제국을 정복했습니다. 그들은 첫 번째 충돌에서 군인의 3 분의 2를 잃었습니다.

Google Translate는 다음 번역을 반환했습니다.

2009 1519 600 스페인, 수백만의 사람들이 멕시코에 상륙하여 아즈텍 제국을 정복했습니다.

2011 1519 600 스페인에 수백만의 사람들이 아즈텍 제국을 정복하기 위해 수백만의 사람들이 멕시코에 상륙했습니다.

2013 1519 600 스페인에 수백 만 명의 아즈텍 제국을 정복하기 위해 스페인에 상륙하여 군인의 3 분의 2가 처음 손실되었습니다.

2015 1519 600 스페인에 수백만 명의 사람들이 멕시코에 상륙하여 수백만의 사람들이 아즈텍 제국을 정복했습니다.

2017 년 1519 멕시코에 600 명의 스페인 사람들이 상륙하여 수백만 명의 아즈텍 제국 사람들을 정복했습니다.

Google 최상의 결과를 유지 하거나 숨길 지 여부 : 의심합니다. 자연어 처리 (NLP) 분야에서 일하는 우수한 연구원들이 많이 있습니다. 구글이 번역을위한 '최고의 성과'를 가지게된다면 연구원들은 조만간 그것을 알아낼 것입니다. (어쨌든 구글이 왜 '가장 위대한 업적'을 숨기겠습니까? 그들은 오픈 소스의 이점을보고있는 것 같습니다. Transformer [1] 또는 BERT [2]를보십시오)

NB. NLP의 최신 알고리즘 목록을 업데이트하려면 SQuAD2.0 리더 보드를 참조하십시오 .

Vaswani, Ashish 등. "주의 만 있으면됩니다." 신경 정보 처리 시스템의 발전. 2017.

Devlin, Jacob, et al. "Bert : 언어 이해를위한 딥 양방향 트랜스포머의 사전 교육." arXiv 프리 프린트 arXiv : 1810.04805 (2018).


"보정 된 연구원"과의 연계에 감사드립니다. 보상을 염두에두면 항상 상황을 더 잘 이해하는 데 도움이됩니다.
한스 피터 스트라이커

논쟁도 그다지 견고하지 않았습니다. 링크를 제거하고 인수를 개선하려고했습니다. 나는 많은 NLP 논문을 읽었으며 나의 연구 결과에 대해 확신을 갖고 있지만 논쟁에 대한지지를 찾기가 어렵다.
RikH

발견 한 내용에 대해 알려주십시오 (좋지 않은 경우). 내 메일 주소는 내 프로파일 페이지에서 찾을 수 있습니다.
한스 피터 스트라이커

1
2019 :In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
Dan M.

4

실제로 언어 쌍과 내용의 주제에 따라 다릅니다. 영어로 번역하거나 다른 언어로 번역하는 것이 일반적으로 가장 잘 지원됩니다. 예를 들어 영어에서 루마니아어로의 번역은 영어에서 러시아어로의 번역보다 열악합니다. 그러나 영어를 러시아어 또는 루마니아어로 번역하는 것이 러시아어를 루마니아어로 번역하는 것보다 낫습니다. 그리고 루마니아어를 영어로 번역하는 것이 영어를 루마니아어로 번역하는 것보다 낫습니다.

그러나 번역가와 일하는 데 익숙하고 언어, 번역 실수 및 주제에 대해 잘 알고 있다면 거기에 무엇이 있어야하는지 쉽게 이해할 수 있습니다. 그리고 그 시점에서 때로는 다른 언어로 읽는 것보다 빠른 스캔을 위해 모국어로 번역 된 것을 읽는 것이 더 쉬운 경우가 있습니다.

덜 대중적인 언어 (연설자가 반드시 필요한 것은 아님)는 모르는 두 언어의 사전을 사용하여 개인적으로하는 것보다 문자 번역에 훨씬 더 가깝습니다.


2

그럼에도 불구하고 Google 번역은 대부분의 사용자에게 읽기 쉽고 유용하며 유용합니까?

예, 다소 도움이되며 더 빨리 번역 할 수 있습니다.

아니면 Google이 최고의 성과를 유지해야하는 이유가 있습니까 (그리고 사용자에게 최고의 결과를 보여주지 않아야 함)?

어쩌면 모르겠다. 정보를 검색하면 Google은 사용자가 인터넷에서 말한 내용을 배우고 부적절한 데이터를 신뢰할 수있는 입력 데이터 세트로 사용하는 것과 같이 끔찍한 바보 같은 일을 많이합니다.


2

영어로 글을 쓰지 않아서 죄송합니다. 적합한 번역을 여기에서 찾으십시오.

관심있는 사람들에게 MT (DeepL)의 품질에 대한 아이디어를 제공하기 위해 오늘 아침에 작업 한 텍스트 (6,300 단어, 오전 9시에 시작, 오후 1 시쯤 배달 및이 게시물에 대한 시간 찾기)에서이 예를 참조하십시오. 내 의견을 게시 할 때이 문장 (201 단어)을 작성하고있었습니다.

또는 귀하가이 웹 사이트에 로그온하지 않은 상태에서 실행되거나 활성화 된 프로세스, 그렇지 않으면이 웹 사이트 인프라의 올바른 작동을 방해하거나 부당한로드를 발생시키는 프로세스; 또는 (e) 수동 또는 자동화 된 소프트웨어, 장치 또는 기타 프로세스를 사용하여이 웹 사이트의 모든 페이지를 "크롤링", "스크래핑"또는 "거미"; 또는 (f)이 웹 사이트의 소스 코드를 디 컴파일, 리버스 엔지니어링 또는 다른 방법으로 얻으려고 시도합니다. "

DeepL은 이것을 반환합니다 :

Sie versichern, garantieren 및 verpflichten sich gegenüber ABC, dass Sie dies nicht tunwerwer : (a) betrügerische, missbräuchliche oder anderweitig 불법적 인 행위 oder (b) Mitteilungen oder Aufforderungen, die dazu bestimmt sind oder sind, Passwörter, of oder private Informationen von anderen Nutzern dieser Website zu erhalten, zu posten oder zu übertragen oder posten oder zu posten oder zu übertragen; oder (c) 죽어 Sicherheit eines Computernetzwerks verletzen, Passwörter oder Sicherheitsverschlüsselungscodes knacken, illegales 자료 (einschließlich 자료, das als bedrohlich oder obszön angesehen werden kann) ausdrücklich verboten sind로 죽고; 주문 (d) 메일리스트, 청취자 주문 또는 주문 양식 자동 응답기 주문 "스팸"및 기타 웹 사이트 주문 Prozesse, die ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser Website angemeldet sined, oder dieenereseneseendeendesendeendesendeseendesineseendesineseendesendesendesendesendesendesendesendesendesendesendesendesendesenendesendesenesendesenendes과 주문에 Belastung der Infrastruktur 다이 저 웹 사이트 stören; oder (e) manuelle oder automatisierte 소프트웨어, Geräte oder andere Prozesse verwenden, um eine Seite dieser Website zu "크롤 렌", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, Den Quellcode dieser Website 웹 사이트. 웹 사이트 운영, 웹 사이트 운영 및 운영 웹 사이트 운영 체제, 운영 및 보안 기능 주문형 웹 사이트 운영 관련 웹 사이트 Belastung der Infrastruktur 웹 사이트 운영 업체; oder (e) manuelle oder automatisierte 소프트웨어, Geräte oder andere Prozesse verwenden, um eine Seite dieser Website zu "크롤 렌", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, Den Quellcode dieser Website 웹 사이트. 웹 사이트 운영, 웹 사이트 운영 및 운영 웹 사이트 운영 체제, 운영 및 보안 기능 주문형 웹 사이트 운영 관련 웹 사이트 Belastung der Infrastruktur 웹 사이트 운영 업체; oder (e) manuelle oder automatisierte 소프트웨어, Geräte oder andere Prozesse verwenden, um eine Seite dieser Website zu "크롤 렌", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, Den Quellcode dieser Website 웹 사이트. zu kratzen, zu spinnen 또는 zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, Den Quellcode dieser Website 웹 사이트. zu kratzen, zu spinnen 또는 zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, Den Quellcode dieser Website 웹 사이트.

이 단락을 조정하는 데 약 5-10 분이 걸렸습니다.

번역가로서 나는 기계 번역에 의존 할 수 없다는 것을 알고 있지만 시간이 지남에 따라 다른 시스템의 특성과 기능을 배웠으며주의를 기울여야 할 것을 알고 있습니다.

MT는 저의 작업에 많은 도움이됩니다.


2
이 영역에는 다국어 텍스트가 많이 포함되어 있기 때문에 합법적 인 텍스트는 더 나은 자동 번역을 제공합니다.
Quora Feans

1

이것은 해설만큼 답이 될 수 없습니다.

품질은 (아론이 위에서 말했듯이) 1) 언어 쌍과 2) 주제뿐만 아니라 3) 속과 4) 원본의 스타일과 5) 당신이 가지고있는 병렬 텍스트의 양을 포함하여 여러 가지에 달려 있습니다. MT 시스템을 훈련시킵니다.

무대를 설정하기 위해 요즘 거의 모든 MT는 병렬 텍스트, 즉 두 개의 다른 언어로 된 텍스트를 기반으로합니다. 하나는 다른 언어의 번역 일 수도 있고 (또는 둘 다 제 3 언어의 번역 일 수도 있습니다); 병렬 텍스트에 특정 단어가 포함되어 있지 않은 경우 사전 (모폴로지 프로세스로 지원됨)을 백오 프로 사용할 수 있습니다.

게다가 다른 사람들이 말했듯이 MT 시스템은 번역하는 텍스트를 전혀 이해하지 못합니다. 단지 문자열, 문자로 구성된 단어 시퀀스를 볼 뿐이며 이전에 번역 된 텍스트에서 유사한 문자열과 시퀀스를 찾습니다. (좋아요, 그것은 그것보다 약간 더 복잡하며 계산 시스템에서 의미를 얻으려는 시도가 있었지만 지금은 대부분 문자열입니다.)

1) 언어가 다릅니다. 일부 언어에는 형태가 많기 때문에 다른 언어가 여러 단어로하는 단일 단어로 작업을 수행합니다. 간단한 예는 스페인어 'cantaremos'= 영어 "우리는 노래 할 것"입니다. 그리고 한 언어는 스페인어의 비공식 / 공식 (tu / usted) 구별과 같이 다른 언어가 방해하지 않는 것을 할 수 있습니다. 또는 한 언어가 단어 순서로 다른 언어가하는 형태학을 수행 할 수 있습니다. 또는 언어에서 사용하는 스크립트는 단어 경계 (중국어 및 기타 단어)를 표시하지 않을 수도 있습니다. 두 언어가 다를수록 MT 시스템이 두 언어를 번역하기가 더 어려워집니다. 통계적 MT의 첫 번째 실험은 프랑스어와 영어 사이에서 이루어졌으며

2) 주제 : 성경에 평행 한 텍스트가 있고 (이것은 거의 모든 한 쌍의 쓰기 언어에 해당됨) MT 시스템을 그에 대해 훈련시키는 경우 엔지니어링 텍스트에서 잘 작동하지 않을 것으로 예상됩니다. (글쎄, 성경은 MT 시스템 훈련 표준에 따라 상대적으로 적은 양의 텍스트이지만, :-).) 성경의 어휘는 공학 텍스트와 매우 다르며, 다양한 문법의 빈도도 건축. 문법은 기본적으로 동일하지만 영어에서는 과학 및 엔지니어링 텍스트에서 더 수동적 인 음성과 복합 명사를 얻습니다.

3) Genera : 병렬 텍스트가 모두 트랙터 설명서와 같이 선언적이라면 대화 상자에서 결과 MT 시스템을 사용해도 좋은 결과를 얻지 못합니다.

4) 스타일 : 힐러리 vs. 도널드; 에 루다이 트 대 인기. 한 훈련은 다른 훈련에서는 좋은 결과를 얻지 못할 것입니다. 마찬가지로 성인 수준의 소설에서 MT 시스템을 훈련시키고 어린이 책에서 사용합니다.

5) 언어 쌍 : 영어에는 많은 텍스트가 있으며 주어진 영어 텍스트와 유사한 다른 언어로 텍스트를 찾을 가능성은 러시아어와 Igbo에서 병렬 텍스트를 찾을 가능성보다 훨씬 높습니다. (그는 인도 언어와 같은 예외가있을 수 있다고 말했다.) 총괄적으로 MT 시스템을 훈련시켜야 할 병렬 텍스트가 많을수록 더 나은 결과를 얻을 수있다.

요컨대, 언어는 복잡하다 (그래서 내가 언어를 사랑하는 이유). 따라서 MT 시스템이 항상 제대로 작동하지는 않습니다.

BTW, 인간 번역가도 항상 그렇게 잘하지는 않습니다. 10 년 전 또는 2 년 전, 나는 MT 번역을위한 훈련 자료로 사용될 번역사에서 영어로 번역 된 문서를 받고있었습니다. 일부 번역은 이해하기 어려웠으며, 일부 경우에 2 명 이상의 인간 번역가로부터 번역을받은 경우 번역가가 동일한 문서를 읽고 있다고 믿기가 어려웠습니다.

그리고 마지막으로, (거의) 정확한 번역이 하나도 없습니다. 구절을 번역하는 여러 가지 방법이 있으며, 원하는 기능 (문법적 정확성, 스타일, 사용 일관성 등)에 따라 다소 좋을 수 있습니다. "정확도"는 쉽게 측정 할 수 없습니다.


1

놀랍게도 다른 모든 답변은 매우 모호하며 인간 번역기 POV 에서이 접근법에 접근하려고합니다. ML 엔지니어로 전환하겠습니다.

번역 도구를 만들 때 가장 먼저 고려해야 할 질문 중 하나는 "도구의 작동 여부를 어떻게 측정합니까?"입니다. .

본질적으로 OP가 요구하는 것입니다.

이제 이것은 쉬운 일이 아닙니다 (일부 다른 대답은 이유를 설명합니다). 기계 번역 결과를 평가하는 다양한 방법을 언급 하는 Wikipedia Article 이 있습니다. 사람과 자동 점수가 모두 존재합니다 (예 : BLEU , NIST , LEPOR ).

신경망 기술이 발전함에 따라 그 점수는 크게 향상되었습니다.

번역은 복잡한 문제입니다. 옳고 그름으로 갈 수있는 많은 것들이 있으며, 컴퓨터 번역 시스템은 종종 인간의 화자에게 두드러지는 일부 미묘함을 무시합니다.

우리가 미래에 대해 생각한다면, 우리가 의지 할 수있는 것들이 거의 없다고 생각합니다.

  • 우리의 기술은 점점 더 널리 알려지고 테스트되고 있습니다. 이것은 장기적으로 정확성을 향상시킬 것입니다.
  • 우리는 이전에 무시되었던 변수를 고려하거나 더 나은 작업을 수행 할 수있는 새로운 기술을 개발하고 있습니다.
  • 현재 존재하는 많은 번역 모델은 종종 다른 언어로 번역하기 위해 "재사용"됩니다 (예 : Google Translator를 사용하여 "JEDEN"을 폴란드어에서 중국어 (번체)로 번역 해보십시오)- "ONE"으로 끝나는 증거입니다. Google이 폴란드어를 영어로 번역 한 다음 영어를 중국어로 번역한다는 사실). 이것은 분명히 좋은 접근 방식이 아닙니다. 프로세스에서 일부 정보를 잃어 버릴 것입니다.하지만 여전히 작동하는 방식이므로 Google과 같은 회사는 인력이나 데이터가 충분하지 않은 언어 에이 정보를 사용합니다. 시간이 지남에 따라 더 전문화 된 모델이 나타나 상황을 개선 할 것입니다.
  • 또한 앞에서 언급했듯이 점점 더 많은 데이터가 기계 번역 개선에만 도움이됩니다.

요약하면,이 복잡한 문제는 해결되지는 않았지만 확실히 좋은 방법이며 잘 연구 된 언어 쌍에 대한 인상적인 결과를 허용합니다.


"놀랍게도 다른 모든 대답 ...", 다른 대답은 아닙니다. 나는 "다른 답변들"또는 "다른 답변들"이라고 말할 것입니다.
nbro

0

"또는 Google은 업적을 유지해야하는 이유가 있으며 사용자에게 최고의 결과를 보여주지 않아야합니다."

그들이 있었다면, 그들이지지하고있는 것은 놀랍습니다 . 구글은 출판 을 많이 얻을 포함한 자연 언어 처리에 강한 논문의 예술 결과의 상태를 하거나 할 중요한 개념 돌파구를 . 또한 매우 유용한 데이터 세트도구를 출시했습니다 . Google은 현재 연구의 최첨단을 사용할뿐만 아니라 문헌에 적극적으로 기여하는 소수의 회사 중 하나입니다.

기계 번역은 어려운 문제 일뿐입니다. 훌륭한 번역가는 일을 잘하기 위해 두 언어 모두에 유창 해야합니다. 각 언어는 고유 한 관용구와 비 문자 또는 문맥 의존적 의미를 갖습니다. 이중 언어 사전에서 작업하는 것만으로도 (인간 또는 컴퓨터의 경우) 끔찍한 결과를 얻을 수 있으므로 단어가 실제로 어떻게 사용되는지 배우려면 여러 언어로 존재하는 기존 코포 라에 대해 모델을 훈련시켜야합니다 (nb 수동 컴파일 된 구) 번역 테이블은 기능 으로 사용할 수 있으며 전체 스토리가 될 수는 없습니다). 일부 언어 쌍의 경우 병렬 코포 라가 풍부합니다 (예 : EU 언어 의 경우 유럽 의회전체 절차가 있습니다)). 다른 쌍의 경우 훈련 데이터가 훨씬 적습니다. 그리고 우리가 훈련 데이터를 가지고 있더라도 배우기에는 자주 나타나지 않는 덜 사용 된 단어와 구가 존재할 것입니다.

동의어를 설명하기가 어려웠 기 때문에 이것은 훨씬 더 큰 문제였습니다. 훈련 데이터에 "강아지가 공을 잡았습니다"라는 문장이 있었지만 "강아지가 공을 잡았다"는 문장이 없다면, 두 번째 문장에 대한 확률이 낮아질 것입니다. 실제로, 많은 경우에 확률이 0 이 되는 것을 방지하기 위해 상당한 평활화가 필요합니다 .

지난 15 년 정도의 신경 언어 모델의 출현은 단어 사이의 연결을 배우기 전에 단어를 실제 의미 의미 공간에 매핑 할 수있게 함으로써이 문제에 도움이되었습니다 . 이것은 의미 상 서로 가까운 단어가 의미 공간에서 서로 가까운 모델을 학습 할 수있게하므로 동의어를위한 단어를 바꾸는 것은 문장의 가능성에 큰 영향을 미치지 않습니다. word2vec이것을 잘 보여준 모델입니다. 예를 들어 "king"에 대한 의미 벡터를 가져와 "man"에 대한 벡터를 빼고 "woman"에 대한 벡터를 추가하고 결과 벡터에 가장 가까운 단어가 "queen"임을 알 수 있습니다. 신경 언어 모델에 대한 연구가 본격적으로 시작되면, 우리는 당혹스럽고 즉각적으로 엄청난 혼란이 감소 하기 시작했고 (즉, 모델이 자연 텍스트와 혼동되는 방식) BLEU 점수 (즉 번역 품질)가 증가하는 것을 보게되었습니다. 언어 모델이 기계 번역 시스템에 통합되고 있습니다.

기계 번역은 여전히 ​​양질의 인간 번역만큼 좋지 않으며, 우리가 완전히 인공 지능 AI를 해독 할 때까지는 그렇게 좋지 않을 것 입니다 . 그러나 훌륭한 인간 ​​번역가는 비싸지 만 인터넷에 접속하는 모든 사람은 기계 번역기를 이용할 수 있습니다. 문제는 인간 번역이 더 나은지 여부가 아니라 기계가 그 품질 수준에 얼마나 근접한가입니다. 그 격차는 줄어들고 있으며 계속 줄어들고 있습니다.


나는이 접근법이 마음에 들지 않지만 맛과 의견의 문제입니다. "인간 번역가는 비싸기 때문에" "배우고 / 저장하고 / 알고"번역을하지 않으면 슬퍼합니다. 그렇다면 번역은 무엇에 관한 것입니까?
한스 피터 스트리커

@ Hans-PeterStricker 번역은 공용 언어를 사용하지 않는 사람들과 의사 소통 할 수있는 능력입니다. 기계 번역은 현재 우리가 다소 잘 해낼 수있을 정도로 충분하지만, 결과 번역은 종종 문법적이지 않거나 비 원어민 스피커처럼 들립니다. (계속 ...)
Ray

"학습 / 저장 / 이해"의 의미에 따라, 우리는 이미 그렇게하고있을 것입니다. 이것이 의미 벡터에 대한 매핑입니다. 단어는 기본 의미를 나타내는 벡터 공간에 포함됩니다. 내가 "개념적"으로 링크 한 Sutskever 논문은 실제로 전체 문장 을 의미 벡터 에 매핑 한 다음 해당 벡터를 대상 언어의 문장으로 변환하여 번역합니다. 따라서 일종의 "이해"가 분명히 일어나고 있습니다. (계속 ...)
Ray

또한 기본 구문 (즉, 문장 구조) 을 배우는 모델 이 있으며 , 신경 모델 에 통합하는 작업이 있었지만, 현재 주어진 순간에 문장의 어떤 부분에 주의기울여야 하는지를 배우는 모델이 있습니다. 명시적인 구문 모델보다 이러한 종류의 일을 처리하는 데 더 효과적입니다. (계속 ...)
Ray

당신은 진정한 이해로 "이해"카운트 이런 종류의, 그때 무엇을 생각하지 않는 경우 튜링 테스트, 즉 완전 현명한 하나를 통과 인공 지능 이외의 계산? 나는 우리 완전히 현명한 인공 지능을 만들 없다고 말한 적이 없다는 것을 명심하십시오. (얼마나 오래 걸릴지 말할 수 없었습니다. 그것은 현장의 일부가 아닙니다. 그러나 여기서 설명하는 모델은 현재 사용중인 모델 이며 사람들이 의사 소통 할 수 있도록 상당히 잘 작동합니다. AI 연구는 "충분히 좋은"의 연속적인 더 나은 버전을 얻는 것에 관한 것입니다
Ray
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.