5
문서 사이의 거리를 계산하는 표준 방법은 무엇입니까?
"문서"라고 말하면 Wikipedia 기사 및 뉴스 기사와 같은 웹 페이지를 염두에두고 있습니다. 나는 바닐라 어휘 거리 메트릭 또는 최첨단 시맨틱 거리 메트릭 중 하나를 선호하는 답변을 선호합니다.
패턴을 인식하여 텍스트 형식의 데이터에서 정보를 추출하는 것과 관련된 데이터 마이닝의 하위 집합을 나타냅니다. 텍스트 마이닝의 목표는 종종 주어진 문서를 자동으로 여러 범주 중 하나로 분류하고이 성능을 동적으로 개선하여 기계 학습의 예가되는 것입니다. 이러한 유형의 텍스트 마이닝의 한 예는 전자 메일에 사용되는 스팸 필터입니다.