단어 공간 대 벡터 공간 모델?


12

이 텍스트 표현 모델의 차이점은 무엇입니까 : 단어의 백과 벡터 공간 모델?


단어 가방은 집합으로 고유 한 단어를 나타냅니다. 항 벡터 공간은 단어 위치도 기록하는 희소 부울 벡터입니다. 내 생각 엔
user122160

답변:


16

Bag-of-words벡터 공간 모델 은 문서와 같은 본문을 특성화하는 다양한 측면을 나타냅니다. 정보 검색에 관한 섹션 23.1의 Jurafsky and Martin, 2009의 "Speech and Language Processing"교재에 잘 설명되어 있습니다. 2008 년 Manning, Raghavan 및 Schütze의 "점수를위한 벡터 공간 모델" 섹션 에서 " 정보 검색 소개"를보다 간결하게 참조 합니다.

Bag-of-words는 문서에서 추출 할 수있는 정보의 종류 (즉, 유니 그램 단어)를 나타냅니다. 벡터 공간 모델은 각 문서의 데이터 구조 (즉, 용어 및 용어 가중치 쌍의 특징 벡터)를 나타냅니다. 두 측면 모두 서로를 보완합니다.

더 구체적으로:

단어 백 : 주어진 문서에 대해 단일 단어 (일명 용어) 만 추출하여 정렬되지 않은 단어 목록을 만듭니다. POS 태그, 구문, 의미, 위치, 빅램, 트라이 그램이 없습니다. 유니 그램 단어만으로 문서를 표현할 수있는 많은 단어를 만들 수 있습니다. 따라서 : Bag-of-words .

벡터 공간 모델 : 문서에서 추출한 단어 모음을 고려하여 문서의 기능 벡터를 작성합니다. 여기서 각 기능은 단어 (용어)이고 기능의 값은 용어 가중치입니다. 중량이라는 용어는 다음과 같습니다.

  • 이진 값 (문서에서 용어가 발생했음을 나타내는 1, 그렇지 않은 것을 나타내는 0);
  • 용어 빈도 값 (문서에서 용어가 몇 번이나 발생했는지를 나타냄); 또는
  • TF-IDF 값 (예 : 1.23과 같은 작은 부동 소수점 숫자)

따라서, 전체 문서는 특징 벡터이며, 각각의 특징 벡터는 벡터 공간 의 점에 대응한다 . 이 벡터 공간의 모델은 어휘에 모든 항에 대한 축이 있도록 벡터 공간은 V 차원이며, 여기서 V 는 어휘의 크기입니다. 그런 다음 벡터는 개념적 으로 모든 용어에 대한 특징을 가진 V 차원 이어야합니다 . 그러나 어휘가 클 수 있기 때문에 ( V = 100,000 개의 용어 순 ) 문서의 특징 벡터는 일반적으로 해당 문서에서 발생한 용어 만 포함하고 그렇지 않은 용어는 생략합니다. 이러한 특징 벡터는 희소 한 것으로 간주됩니다 .

따라서 문서의 벡터 표현 예는 다음과 같습니다.

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

여기서이 예시적인 벡터는 문서 ID (예를 들어 42),지면 진실 라벨 (예를 들어 정치) 및 용어 및 용어 주파수 쌍을 포함하는 특징 및 특징 값의 목록을 갖는다. 여기서이 문서에서 "결석"이라는 단어가 2 번 발생한 것을 볼 수 있습니다.


1

Bag of Words를 사용하면 문서 공간 행렬 요소에 벡터 주파수를 할당하고 벡터 공간 모델에서 벡터 공간의 연산 (도트 곱)이 의미가있는 한 문서 용어 행렬 요소는 상당히 일반적입니다 (tf-idf 가중치). 예)?


예, 또한 VSM은 향상된 단어 백 (bag-of-words) 버전이라고 생각합니다.
samsamara
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.