Le and Mikolov 의 ICML 2014 논문 " 문장 및 문서의 분산 표현 "의 결과에 깊은 인상을 받았습니다 . "문단 벡터"라고 부르는 기술은 word2vec 모델의 확장을 기반으로 임의로 긴 단락 / 문서의 감독되지 않은 표현을 학습합니다. 이 문서는이 기술을 사용하여 감정 분석에 대한 최신 성능을보고합니다.
나는 전통적인 단어 분류 표현의 대안으로 다른 텍스트 분류 문제에 대해이 기술을 평가하기를 희망했습니다. 그러나 두 번째 저자 의 게시물을 word2vec Google 그룹의 스레드에서 실행하여 일시 중지했습니다.
나는 여름 동안 Quoc의 결과를 재현하려고 노력했다. 텍스트 정규화의 수준에 따라 IMDB 데이터 세트의 오류율이 약 9.4 %-10 %로 떨어질 수 있습니다. 그러나 Quoc이 논문에서보고 한 내용 (7.4 % 오류, 큰 차이)에 가까워 질 수 없었습니다. 물론 우리는 코드에 대해서도 Quoc에게 요청했습니다. 그는 그것을 출판하겠다고 약속했지만 지금까지 아무 일도 일어나지 않았습니다. ... Quoc의 결과는 실제로 재현 할 수 없다고 생각하기 시작했습니다.
아직이 결과를 재현 한 사람이 있습니까?