Gensim Word2Vec 구현에서 신기원의 수


14

Word2Vec 구현에 iter매개 변수 가 있습니다gensim

gensim.models.word2vec.Word2Vec (문장 = 없음, 크기 = 100, alpha = 0.025, window = 5, min_count = 5, max_vocab_size = None, sample = 0, seed = 1, workers = 1, min_alpha = 0.0001, sg 클래스 = 1, hs = 1, 음수 = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = 없음, sorted_vocab = 1)

에포크의 수를 지정합니다.

iter = 말뭉치에 대한 반복 횟수 (에포크).

코퍼스보다 모델을 개선하는 데 도움이되는지 아는 사람이 있습니까?

iter기본적으로 1로 설정된 이유 가 있습니까? NO를 높이는 데 별다른 영향이 없습니까? 시대의?

No를 설정하는 방법에 대한 과학적 / 실험적 평가가 있습니까? 시대의?

분류 / 회귀 작업과 달리 그리드 검색 방법은 벡터가 감독되지 않은 방식으로 생성되고 목적 함수가 단순히 계층 적 소프트 맥스 또는 네거티브 샘플링에 의한 것이므로 실제로 작동하지 않습니다.

아니오를 단축하는 조기 정지 메커니즘이 있습니까? 벡터가 수렴되면 시대 그리고 계층 적 softmax 또는 음수 샘플링 대물 렌즈가 수렴 될 수 있습니까?

답변:


5

신기원의 수를 늘리면 일반적으로 단어 표현의 품질에 도움이됩니다. 실험에서 필자는 단어 임베딩을 텍스트 분류 기능으로 사용하여 에포크를 5 대신 15로 15로 설정하여 성능을 향상시키는 곳에서 수행했습니다.


2

나는 여기를 보고 기본값이 1에서 5로 바뀌는 것을 발견했다. 저자들은 분명히 더 많은 시대가 결과를 개선 할 것이라고 믿는다 .

아직 경험으로는 말할 수 없습니다.


2

나는 [2, 10, 100] 신기원에 대한 Google 뉴스 300에서 내 w2v 모델을 훈련 시켰으며 가장 좋은 것은 10 신기원이었습니다. 기다린 후에, 나는 100 시대가 나쁘다는 것에 충격을 받았다.

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    

1

반복 횟수 (에포크 수)를 늘리면 훈련 시간이 크게 늘어납니다. Word2Vec은 방대한 양의 문서를 공급하는 경우에만 우수한 결과를 제공하므로 결과를 포함하는 단어가 실제로 더 정확 해지더라도 두 번 반복해도 합리적이지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.