word2vec의 단어 벡터의 특징


9

감정 분석을 시도하고 있습니다. 단어를 단어 벡터로 변환하기 위해 word2vec 모델을 사용하고 있습니다. '문장'이라는 목록에 모든 문장이 있고이 문장을 다음과 같이 word2vec로 전달한다고 가정합니다.

model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300,   window=5, sample=1e-3)

나는 단어 벡터에 멍청하기 때문에 두 가지 의심이 있습니다.
1- 피처 수를 300으로 설정하면 단어 벡터의 피처가 정의됩니다. 그러나이 기능들은 무엇을 의미합니까? 이 모델의 각 단어가 1x300 numpy 배열로 표시되는 경우이 300 가지 기능이 해당 단어의 의미는 무엇입니까?

2- 위 모델에서 'sample'파라미터로 표시되는 다운 샘플링은 실제로 무엇을합니까?

미리 감사드립니다.

답변:


10

1- 특징의 수 : 신경망 모델의 관점에서 그것은 투영 (숨겨진) 층의 뉴런의 수를 나타냅니다. 프로젝션 레이어는 분포 가설을 기반으로 구축되므로 각 단어의 숫자 벡터는 문맥 단어와의 관계를 나타냅니다.

이 기능은 감독되지 않는 방법이므로 신경망에서 학습합니다. 각 벡터에는 여러 가지 의미 적 특성이 있습니다. 예를 들어, 고전적인 예 V(King) -V(man) + V(Women) ~ V(Queen)와 각 단어가 300-d 벡터로 표현되어 봅시다 . V(King)왕도, 왕국, 남성, 인간의 의미 적 특성을 벡터에서 특정 순서로 가질 것입니다. V(man)남성 성, 인간성, 특정 순서대로 작동합니다. 따라서 V(King)-V(Man)완료되면 남성 성, 인간 특성이 무효화되고 V(Women)여성 성을 가진 특성이 추가되면 인간 특성이 추가되어 벡터와 매우 유사한 벡터가 생성됩니다.V(Queen). 흥미로운 점은 이러한 특성이 벡터에 특정 순서로 인코딩되어 더하기, 빼기와 같은 수치 계산이 완벽하게 작동한다는 것입니다. 이것은 신경망에서 비지도 학습 방법의 특성 때문입니다.

2- 근사 알고리즘은 두 가지가 있습니다. Hierarchical softmax그리고 negative sampling. 샘플 파라미터가 주어지면, 네거티브 샘플링이 필요합니다. 계층 적 softmax의 경우, 각 단어 벡터에 대해 문맥 단어에 양의 출력이 주어지고 어휘의 다른 모든 단어에는 음의 출력이 주어집니다. 시간 복잡성 문제는 음성 샘플링으로 해결됩니다. 전체 어휘가 아닌 네거티브 샘플링에서와 같이, 어휘의 샘플링 된 부분에만 네거티브 출력이 주어지고 벡터가 훈련되어 이전 방법보다 훨씬 빠릅니다.


word2vec 기능에 대한 이러한 해석은 잘못된 것입니다. 공간의 남성 성 차원이나 벡터에 로열티 요소가 없습니다. 이 경우 300 차원 벡터 공간은 300 개의 독립적 인 의미 적 이분법 만 나타낼 수 있습니다.
Dan Hicks

@ DanHicks : 각 기능을 공간의 차원으로 언급 한 적이 없습니다. 방금 그러한 의미 적 특징이 수학 연산이 가능하도록 특정 순서로 벡터로 인코딩된다고 말했습니다.
yazhi

"특징"은 일반적으로 경우를 나타내는 데 사용되는 변수,이 경우 벡터 공간의 단어 벡터 / 차원의 요소를 나타냅니다. @Nain의 질문은 이런 방식으로 "기능"을 명확하게 사용합니다. 당신이 말하는 "의미 적 특징들"은 word2vec가 비유를 어떻게 다루는 지에 대해 모호한 방법입니다. 그것들은 워드 벡터의 모든 기능이 아닙니다.
Dan Hicks

1
"시맨틱 피쳐"를 "시맨틱 특성"으로 편집했으며, 답의 "기능"은 벡터의 치수 만 나타냅니다.
yazhi

0
  1. 분포 가설에 따르면, 단어의 벡터에서 개별 차원은 실제 세계의 단어에 대해서는별로 의미가 없습니다. 개별 치수에 대해 걱정해야합니다. 귀하의 질문이 어떻게 차원의 수를 선택해야하는지에 대해서는 순전히 귀하의 데이터에 대한 실험을 기반으로하며 100에서 1000까지 진행될 수 있습니다. 위키 텍스트에 대한 교육이 수행되는 많은 실험에서 300 차원은 대부분 최고를 제공합니다 결과.
  2. 샘플 매개 변수는 빈도가 높은 단어를 정리하는 데 사용되는 매개 변수입니다. 예를 들어 "the" "is" "was"인 경우, 내부 단어를 예측하는 동안 이러한 중지 단어는 창에서 고려되지 않으며 기본값은 빈도가 높은 중지 단어를 식별하는 데 효과적입니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.