주제 모델링을 수행하기 전에 중지 단어를 제거하려고합니다. 나는 어떤 부정 단어들도 (아무것도 아닌 등) 보통 중지 단어로 간주됩니다. 예를 들어, NLTK, spacy 및 sklearn은 중지 단어 목록에 "not"을 포함합니다. 그러나 아래 문장에서 "not"을 제거하면 의미가 상실되어 주제 모델링이나 감정 분석에 정확하지 않습니다.
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
왜 이러한 부정 단어가 일반적으로 정지 단어로 간주되는지 설명해 주시겠습니까?
2
문장의 의미 론적 분석을 수행하는 경우 논리적 인 연결이 중요합니다. (1) iff not (2). 이러한 문장의 논리를 모델링하려면 스톱 백에서 제외하십시오. 데이터 마이닝 관점에서 볼 때 문서에 'not'이 존재한다고해서 다른 문서와 구별 할 수 있도록 주제에 대해 많은 정보를 제공하지 않기 때문에 일반적으로 발생합니다. 충분히 드물지 않습니다. nlp 작업에서이를 무시하는 다른 이유가있을 수 있습니다.
—
후난 Rostomyan