답변:
텍스트 데이터를 다루는 모든 알고리즘에는 어휘가 있습니다. 단어 2vec의 경우, 어휘는 입력 코퍼스의 모든 단어 또는 최소 주파수 임계 값 이상의 단어로 구성됩니다.
알고리즘은 어휘 밖의 단어를 무시하는 경향이 있습니다. 그러나 본질적으로 단어 외의 단어가 없도록 문제를 재구성하는 방법이 있습니다.
단어는 word2vec에서 단순히 "토큰"입니다. 그들은 ngram이거나 문자 일 수 있습니다. 어휘를 정의하는 한 가지 방법은 최소한 X 번 발생하는 모든 단어가 어휘에 있다고 말하는 것입니다. 그런 다음 가장 일반적인 "음절"(ngrams of characters)이 어휘에 추가됩니다. 그런 다음 어휘에 개별 글자를 추가합니다.
이런 식으로 모든 단어를 다음과 같이 정의 할 수 있습니다
word2vec는 단어를 원자로 취급합니다. 알 수없는 단어에 대한 의미있는 벡터를 얻으려면