정서 분석에 단락 벡터를 사용한보고 된 최신 성능이 복제 되었습니까?


20

Le and Mikolov 의 ICML 2014 논문 " 문장 및 문서의 분산 표현 "의 결과에 깊은 인상을 받았습니다 . "문단 벡터"라고 부르는 기술은 word2vec 모델의 확장을 기반으로 임의로 긴 단락 / 문서의 감독되지 않은 표현을 학습합니다. 이 문서는이 기술을 사용하여 감정 분석에 대한 최신 성능을보고합니다.

나는 전통적인 단어 분류 표현의 대안으로 다른 텍스트 분류 문제에 대해이 기술을 평가하기를 희망했습니다. 그러나 두 번째 저자게시물을 word2vec Google 그룹의 스레드에서 실행하여 일시 중지했습니다.

나는 여름 동안 Quoc의 결과를 재현하려고 노력했다. 텍스트 정규화의 수준에 따라 IMDB 데이터 세트의 오류율이 약 9.4 %-10 %로 떨어질 수 있습니다. 그러나 Quoc이 논문에서보고 한 내용 (7.4 % 오류, 큰 차이)에 가까워 질 수 없었습니다. 물론 우리는 코드에 대해서도 Quoc에게 요청했습니다. 그는 그것을 출판하겠다고 약속했지만 지금까지 아무 일도 일어나지 않았습니다. ... Quoc의 결과는 실제로 재현 할 수 없다고 생각하기 시작했습니다.

아직이 결과를 재현 한 사람이 있습니까?


이 상황은 아직 바뀌 었습니까? 나는 볼 Gensim이 doc2vec (단락 / 문서 벡터)의 버전을 구현했습니다 것을 알고 : radimrehurek.com/gensim/models/doc2vec.html 하지만 논문의 결과는 여기에 인용 재현하려는 시도.
Doctorambient

1
예, gensim을 사용하여 종이 결과를 재현하려는 시도가있었습니다 . doc2vec IPython 노트북을 참조하십시오 .
Radim

답변:


13

http://arxiv.org/abs/1412.5335의 각주 (저자 중 하나는 Tomas Mikolov입니다)

실험에서 (Le & Mikolov, 2014)의 결과와 일치시키기 위해 Quoc Le의 제안에 따라 음성 샘플링 대신 계층 적 softmax를 사용했습니다. 그러나 훈련 및 테스트 데이터가 섞이지 않은 경우에만 92.6 %의 정확도 결과를 생성합니다. 따라서이 결과가 유효하지 않은 것으로 간주합니다.


1
왜 "셔플되지 않음"==>이 유효하지 않은지 이해할 수 없습니다. 기차 / 테스트 세트 사이에 잘 ​​정의 된 분할이 없습니까? 따라서 열차 / 테스트는 (원본) 데이터 세트를 섞는 방법에 달려 있습니까? 테스트 세트의 순서는 중요하지 않습니다 (동적 평가가 없습니까?). 훈련 세트의 순서도 중요하지 않습니다.
capybaralet

그들이 차이를 겪고 있다면 분명히 순서가 중요합니다.
JAB
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.