지도 학습에 사용하기에 적합한 단어를 포함하여 문서를 기능 벡터에 매핑하려면 어떻게해야합니까?
워드 삽입은 각각의 워드를 맵핑 벡터에 여기서, 일부하지 너무나 많은 수 (예를 들어, 500)이다. 널리 사용되는 단어 포함 은 word2vec 및 Glove 입니다.v ∈ R d d
문서를 분류하기 위해지도 학습을 적용하고 싶습니다. 현재 bag-of-words 표현을 사용하여 각 문서를 지형지 물 벡터에 매핑 한 다음 상용 분류기를 적용하고 있습니다. 단어 묶음 기능 벡터를 기존의 사전 훈련 된 단어 포함을 기반으로하는 단어로 바꾸고 단어 포함에 포함 된 의미 지식을 활용하고 싶습니다. 그렇게하는 표준 방법이 있습니까?
몇 가지 가능성을 상상할 수 있지만 가장 적합한 것이 있는지 모르겠습니다. 내가 고려한 후보자 접근법 :
문서의 각 단어에 대한 벡터를 계산하고 평균을 구할 수 있습니다. 그러나 이것은 많은 정보를 잃을 수도 있습니다. 예를 들어, bag-of-words 표현을 사용하여 분류 작업과 관련성이 높은 단어가 거의없고 대부분의 단어가 관련이없는 경우 분류자는 쉽게이를 배울 수 있습니다. 문서의 모든 단어에 대한 벡터의 평균을 구하면 분류자가 기회가 없습니다.
모든 단어의 벡터를 연결하면 고정 크기의 피처 벡터가 생성되지 않으므로 작동하지 않습니다. 또한 단어의 특정 배치에 지나치게 민감하기 때문에 나쁜 생각처럼 보입니다.
나는 단어 임베딩을 사용하여 모든 단어의 어휘를 1000 개의 클러스터와 같은 고정 된 클러스터 세트로 묶을 수 있는데, 여기서 단어 유사성의 척도로 벡터에 코사인 유사성을 사용합니다. 그런 다음, bag-of-words 대신에 bag-of-clusters를 가질 수 있습니다. 분류기에 제공하는 기능 벡터는 1000- 벡터 일 수 있습니다. 여기서 번째 구성 요소는 문서의 단어 수를 계산합니다. 클러스터 일부입니다 .내가
단어 주어지면 이러한 단어 임베딩을 사용하면 가장 유사한 상위 20 개의 단어 및 유사성 점수 있습니다. 이것을 사용하여 bag-of-words와 같은 특징 벡터를 조정할 수 있습니다. I 단어 보면 단어에 대응하는 소자 증가에 부가하여, 하여 , I는 단어에 대응하는 요소가 증가 할 수 의해 단어에 대응하는 요소 증분 의해 등.w (1) , ... , w (20) 의 1 , ... , s의 20 w w 1 w 1 의 1 w 2 S 2
문서 분류에 효과적 일 수있는 특정 접근 방법이 있습니까?
단락 2vec 또는 doc2vec를 찾고 있지 않습니다. 그것들은 큰 데이터 코퍼스에 대한 훈련이 필요하며, 큰 데이터 코퍼스는 없습니다. 대신 기존 단어 임베딩을 사용하고 싶습니다.