NLP-왜 "정지"가 아닌 단어입니까?


18

주제 모델링을 수행하기 전에 중지 단어를 제거하려고합니다. 나는 어떤 부정 단어들도 (아무것도 아닌 등) 보통 중지 단어로 간주됩니다. 예를 들어, NLTK, spacy 및 sklearn은 중지 단어 목록에 "not"을 포함합니다. 그러나 아래 문장에서 "not"을 제거하면 의미가 상실되어 주제 모델링이나 감정 분석에 정확하지 않습니다.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

왜 이러한 부정 단어가 일반적으로 정지 단어로 간주되는지 설명해 주시겠습니까?


2
문장의 의미 론적 분석을 수행하는 경우 논리적 인 연결이 중요합니다. (1) iff not (2). 이러한 문장의 논리를 모델링하려면 스톱 백에서 제외하십시오. 데이터 마이닝 관점에서 볼 때 문서에 'not'이 존재한다고해서 다른 문서와 구별 할 수 있도록 주제에 대해 많은 정보를 제공하지 않기 때문에 일반적으로 발생합니다. 충분히 드물지 않습니다. nlp 작업에서이를 무시하는 다른 이유가있을 수 있습니다.
후난 Rostomyan

답변:


20

중지 단어 는 일반적으로 "언어에서 가장 일반적인 단어"로 생각됩니다. 그러나 다른 작업을 기반으로 한 다른 정의가 가능합니다.

작업이 단어 빈도 (예 : 문서 분류를위한 tf-idf 분석)를 기반으로하는 경우 '하지 않음'을 중지 단어로 간주하는 것이 좋습니다.

텍스트 의 문맥 (예 : 감정 분석 )에 관심이 있다면 부정 단어를 다르게 취급하는 것이 좋습니다. 부정은 소위 텍스트의 원자가 를 변경합니다 . 이것은주의해서 다루어야하며 일반적으로 사소하지 않습니다. 예를 들어 트위터 부정 코퍼스가 있습니다. 이 백서 에는 접근 방식에 대한 설명이 나와 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.