답변:
Bag-of-words 및 벡터 공간 모델 은 문서와 같은 본문을 특성화하는 다양한 측면을 나타냅니다. 정보 검색에 관한 섹션 23.1의 Jurafsky and Martin, 2009의 "Speech and Language Processing"교재에 잘 설명되어 있습니다. 2008 년 Manning, Raghavan 및 Schütze의 "점수를위한 벡터 공간 모델" 섹션 에서 " 정보 검색 소개"를보다 간결하게 참조 합니다.
Bag-of-words는 문서에서 추출 할 수있는 정보의 종류 (즉, 유니 그램 단어)를 나타냅니다. 벡터 공간 모델은 각 문서의 데이터 구조 (즉, 용어 및 용어 가중치 쌍의 특징 벡터)를 나타냅니다. 두 측면 모두 서로를 보완합니다.
더 구체적으로:
단어 백 : 주어진 문서에 대해 단일 단어 (일명 용어) 만 추출하여 정렬되지 않은 단어 목록을 만듭니다. POS 태그, 구문, 의미, 위치, 빅램, 트라이 그램이 없습니다. 유니 그램 단어만으로 문서를 표현할 수있는 많은 단어를 만들 수 있습니다. 따라서 : Bag-of-words .
벡터 공간 모델 : 문서에서 추출한 단어 모음을 고려하여 문서의 기능 벡터를 작성합니다. 여기서 각 기능은 단어 (용어)이고 기능의 값은 용어 가중치입니다. 중량이라는 용어는 다음과 같습니다.
따라서, 전체 문서는 특징 벡터이며, 각각의 특징 벡터는 벡터 공간 의 점에 대응한다 . 이 벡터 공간의 모델은 어휘에 모든 항에 대한 축이 있도록 벡터 공간은 V 차원이며, 여기서 V 는 어휘의 크기입니다. 그런 다음 벡터는 개념적 으로 모든 용어에 대한 특징을 가진 V 차원 이어야합니다 . 그러나 어휘가 클 수 있기 때문에 ( V = 100,000 개의 용어 순 ) 문서의 특징 벡터는 일반적으로 해당 문서에서 발생한 용어 만 포함하고 그렇지 않은 용어는 생략합니다. 이러한 특징 벡터는 희소 한 것으로 간주됩니다 .
따라서 문서의 벡터 표현 예는 다음과 같습니다.
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
여기서이 예시적인 벡터는 문서 ID (예를 들어 42),지면 진실 라벨 (예를 들어 정치) 및 용어 및 용어 주파수 쌍을 포함하는 특징 및 특징 값의 목록을 갖는다. 여기서이 문서에서 "결석"이라는 단어가 2 번 발생한 것을 볼 수 있습니다.
Bag of Words를 사용하면 문서 공간 행렬 요소에 벡터 주파수를 할당하고 벡터 공간 모델에서 벡터 공간의 연산 (도트 곱)이 의미가있는 한 문서 용어 행렬 요소는 상당히 일반적입니다 (tf-idf 가중치). 예)?