중지 단어 목록을 큐 레이트하는 방법에 대한 힌트를 찾고 있습니다. 누군가가 사전 처리 및 필터링을 위해 데이터 세트 자체에서 중지 단어 목록을 추출하는 좋은 방법을 알고 있거나 추천 할 수 있습니까?
자료:
수년에 걸쳐 가변 길이 (검색어 및 전체 문장 (최대 200 자))의 방대한 양의 인간 텍스트 입력. 이 텍스트에는 봇으로부터의 기계 입력, 한 단어, 어리석은 검색, 제품 검색과 같은 많은 스팸이 포함되어 있으며, 그중 일부만이 유용 할 것 같습니다. 나는 때때로 사람들이 정말로 멋진 질문을함으로써 내 편을 찾는다는 것을 깨달았습니다. 이 질문은 너무 멋져서 사람들이 시간이 지남에 따라 검색하는 방법과 사람들이 내 웹 사이트를 사용하는 데 관심이있는 주제를 자세히 살펴볼 가치가 있다고 생각합니다.
내 문제:
전처리 과정 (예 : 스팸 삭제)으로 어려움을 겪고 있습니다. 나는 이미 웹 (NLTK 등)에서 몇 가지 중지 단어 목록을 시도했지만 이것들은이 데이터 세트에 대한 나의 요구를 실제로 돕는 것은 아닙니다.
당신의 아이디어와 토론에 감사드립니다!
stop words
합니다. Stop-wrods는 일부 언어에서 가장 일반적인 단어 목록입니다 (예 I
: the
, a
등). 어떤 텍스트가 스팸인지 아닌지를 식별하는 알고리즘을 시작하기 전에 텍스트에서이 단어를 제거하면됩니다. 어떤 텍스트가 스팸인지 식별하는 데 도움이되지 않았으며 학습 알고리즘을 향상시킬 수 있습니다.