SVD 이전에 단어 동시 발생 행렬에 포인트 상호 정보를 적용하는 장단점은 무엇입니까?


11

단어 포함을 생성하는 한 가지 방법은 다음과 같습니다 ( mirror ).

  1. 예를 들어 "나는 비행을 즐긴다. 나는 NLP를 좋아한다. 나는 딥 러닝을 좋아한다."
  2. 그것에서 단어 동시성 매트릭스를 빌드하십시오.

여기에 이미지 설명을 입력하십시오

  1. X 에서 SVD를 수행 하고 U 의 첫 번째 k 열을 유지하십시오 .

여기에 이미지 설명을 입력하십시오

U1:|V|,1:k

2 단계와 3 단계 사이에 포인트 상호 정보적용되는 경우가 있습니다 (예 : A. Herbelot 및 EM Vecchi. 2015. 공유 세계 구축 : 모델 이론적 시맨틱 공간에 대한 분포 맵핑 . 리스본, 포르투갈 .)

SVD 이전에 단어 동시 발생 행렬에 포인트 상호 정보를 적용하는 장단점은 무엇입니까?

답변:


11

Dan Jurafsky와 James H. Martin의 책 에 따르면 :

"단순한 빈도가 단어 간의 연관성을 측정하는 가장 좋은 방법은 아니라는 것이 밝혀졌습니다. 한 가지 문제는 원시 빈도가 매우 비뚤어지고 차별적이지 않다는 것입니다. 우리가 살구와 파인애플이 어떤 종류의 컨텍스트를 공유하는지 알고 싶다면 그러나 디지털과 정보가 아니라 우리는 모든 종류의 단어에서 자주 발생하며 특정 단어에 대한 정보가없는 것과 같은 단어 나 단어와 같은 단어를 잘 구별하지 않을 것입니다. "

때때로 우리는이 원시 주파수를 긍정적 인 포인트 별 상호 정보로 대체합니다.

PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)

PMI 자체는 문맥 단어 C로 단어 w를 관찰하는 것이 독립적으로 관찰하는 것과 비교하여 얼마나 많은 단어를 관찰 할 수 있는지를 보여줍니다. PPMI에서는 PMI의 양수 값만 유지합니다. PMI가 + 또는-인 경우와 왜 부정적인 것을 유지해야하는지 생각해 봅시다.

긍정적 인 PMI는 무엇을 의미합니까?

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • wc

부정적인 PMI는 무엇을 의미합니까?

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • wc

PMI 또는 특히 PPMI는 유익한 동시 발생으로 이러한 상황을 파악하는 데 도움이됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.