상호 정보 매트릭스의 고유 벡터의 의미는 무엇입니까?


14

공분산 행렬의 고유 벡터를 볼 때 최대 분산의 방향을 얻습니다 (첫 번째 고유 벡터는 데이터가 가장 많이 변하는 방향 등입니다). 이를 주성분 분석 (PCA)이라고합니다.

상호 정보 매트릭스의 고유 벡터 / 값을 보는 것이 무엇을 의미하는지 궁금합니다. 최대 엔트로피 방향을 가리킬까요?


4
나는 모르지만 상호 정보 매트릭스가 항상 양의 반 정밀도 가 아니라는 것을 알게되었습니다 : arxiv.org/abs/1307.6673 .
amoeba는

3
: 우리가에서 일한 것을 생각 나게 people.eng.unimelb.edu.au/baileyj/papers/frp0038-Vinh.pdf
시몬

답변:


3

그것은 직접적인 대답은 아니지만 ( 포인트 별 상호 정보에 관한 것이므로) word2vec 관련 PMI 매트릭스 의 단일 값 분해 와 관련된 논문을 살펴보십시오 .

Mikolov 등이 도입 한 단어 임베딩 방법 인 SGNS (negative-sampling)로 스킵 그램을 분석하고 셀이 각각의 PMI (pointwise mutual information) 인 워드 컨텍스트 매트릭스를 암시 적으로 인수 분해하고 있음을 보여줍니다. 전역 상수에 의해 이동 된 단어 및 컨텍스트 쌍. 우리는 또 다른 임베딩 방법 인 NCE가 암시 적으로 유사한 행렬을 분해하고 있으며, 여기서 각 셀은 문맥에 따라 단어의 (이동 된) 로그 조건부 확률입니다. 우리는 단어를 표현하기 위해 드문 쉬프트 포지티브 PMI 단어 컨텍스트 매트릭스를 사용하면 두 단어 유사성 작업과 두 가지 유추 작업 중 하나의 결과가 향상됨을 보여줍니다. 밀도가 낮은 저 차원 벡터가 선호되는 경우 SVD를 사용한 정확한 인수 분해는 단어 유사성 작업을위한 SGNS 솔루션만큼 좋은 솔루션을 달성 할 수 있습니다. 유추에 대한 질문에서 SGNS는 SVD보다 우수합니다. 우리는 이것이 SGNS 인수 분해의 가중 특성에서 비롯된 것이라고 추측합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.