자연어 처리 (NLP) 작업의 경우 단어에 대한 포함으로 word2vec 벡터 를 종종 사용합니다 . 그러나, 단어 2vec 벡터에 의해 포착되지 않는 많은 알 수없는 단어가있을 수 있습니다. 단순히이 단어가 훈련 데이터에서 자주 보이지 않기 때문입니다 (많은 구현에서는 단어를 단어에 추가하기 전에 최소 개수를 사용합니다). 특히 단어의 철자가 틀린 Twitter와 같은 텍스트의 경우에 특히 그렇습니다.
LSTM (Long Short-Term) 네트워크를 사용하여 감정 예측과 같은 NLP 작업을 모델링 할 때 이러한 알 수없는 단어를 어떻게 처리해야합니까? 두 가지 옵션이 있습니다.
- word2vec 사전에 '알 수없는 단어'토큰 추가
- LSTM이 단어가 문장에 있다는 것을 알지 못하도록 이러한 알 수없는 단어를 삭제합니다.
이 단어들을 다루는 선호되는 방법은 무엇입니까?