상호 정보 대 상관


답변:


77

(선형) 상관 관계, 공분산 (Pearson의 상관 계수 "비 표준화")에 대한 기본 개념을 생각해 봅시다. 확률 질량 함수 , 및 조인트 pmf 를 갖는 두 개의 불연속 랜덤 변수 및 경우XYp(x)p(y)p(x,y)

Cov(X,Y)=E(XY)E(X)E(Y)=x,yp(x,y)xy(xp(x)x)(yp(y)y)

Cov(X,Y)=x,y[p(x,y)p(x)p(y)]xy

둘 사이의 상호 정보는 다음과 같이 정의됩니다.

I(X,Y)=E(lnp(x,y)p(x)p(y))=x,yp(x,y)[lnp(x,y)lnp(x)p(y)]

두 개를 비교해보십시오. 각각은 한계 pmf의 곱으로부터 과 같이 "두 rv의 독립으로부터의 거리"에 대한 점별 "측정"을 포함합니다. 는 레벨의 차이로, 는 로그의 차이로 사용합니다. Cov(X,Y)I(X,Y)

그리고 이러한 조치는 무엇을 하는가? 에서는 들은 두 개의 랜덤 변수의 곱의 가중 합을 생성한다. 에서는 들은 공동 확률의 가중 된 합을 생성한다.Cov(X,Y)I(X,Y)

따라서 를 사용하면 비 독립성이 제품 에 어떤 영향을 미치는지 에서는 비 독립성이 공동 확률 분포에 어떤 영향을 미치는지 살펴 봅니다. Cov(X,Y)I(X,Y)

반대로, 는 독립으로부터의 거리에 대한 로그 측정의 평균값이고, 는 독립 거리로부터의 거리 측정치, 제품에 의해 가중 된 값입니다. 두 rv의.I(X,Y)Cov(X,Y)

따라서이 둘은 적대적이지 않으며 두 랜덤 변수 사이의 연관에 대한 서로 다른 측면을 설명하는 상보 적입니다. 상호 정보가 선형인지 아닌지에 대해 상호 정보는 "관심이 없다"고 언급 할 수 있지만, 공분산은 0 일 수 있으며 변수는 여전히 확률 적으로 확률 적으로 의존적 일 수 있습니다. 반면에, 공분산은 실제로 관련된 확률 분포를 알 필요없이 데이터 분포에서 직접 계산할 수 있습니다 (분포의 순간을 포함하는 표현이므로). 상호 정보는 분포에 대한 지식이 필요합니다. 미분은 공분산 추정에 비해 훨씬 더 섬세하고 불확실한 작업입니다.


@ Alecos Papadopoulos; 귀하의 포괄적 인 답변에 감사드립니다.
SaZa

1
나는 나 자신에게 같은 질문을했지만 대답을 완전히 이해하지 못했습니다. @ Alecos Papadopoulos : 나는 측정 된 의존성이 동일하지 않다는 것을 이해했다. X와 Y 사이의 관계는 Cov (X, Y)보다는 상호 정보 I (X, Y)를 선호해야합니까? 나는 최근 Y가 X에 거의 선형으로 의존하고 (산포도에서 거의 직선 이었음) Corr (X, Y)가 0.87 인 반면 I (X, Y)가 0.45 인 이상한 예 를 보았습니다 . 따라서 하나의 지표를 다른 지표보다 선택해야 할 경우가 있습니까? 도움을 주셔서 감사합니다!
Gandhi91

이 특별한 경우 에 , 의 엔트로피는 무엇입니까 ? XH(X)
Alecos Papadopoulos

이것은 위대하고 매우 명확한 답변입니다. cov가 0이지만 pmi가 아닌 쉽게 사용할 수있는 예제가 있는지 궁금합니다.
thang

@thang. 실제로는 아닙니다. 공분산이 0이고 동시에 공동 분포를 사용할 수있는 예를 찾을 수 있어야 상호 정보를 계산할 수 있습니다. 독립).
Alecos Papadopoulos 2016 년

7

상호 정보는 두 확률 분포 사이의 거리입니다. 상관은 두 랜덤 변수 사이 의 선형 거리입니다.

심볼 세트에 대해 정의 된 두 확률간에 상호 정보를 가질 수 있지만, 자연적으로 R ^ N 공간에 맵핑 할 수없는 심볼 사이에는 상관 관계가 없습니다.

반면에 상호 정보는 변수의 일부 속성에 대한 가정을하지 않습니다 ... 부드러운 변수로 작업하는 경우 상관 관계가 변수에 대해 더 많이 알려줄 수 있습니다. 예를 들어 그들의 관계가 단조로운 경우.

사전 정보가 있으면 서로 전환 할 수 있습니다. 의료 기록에서 "유전자형 A가 있음"기호를 1로, "유전자형 A가 없음"기호를 0과 1 값으로 매핑 할 수 있으며 이것이 질병과 상관 관계가 있는지 확인할 수 있습니다. 마찬가지로 연속적인 (예 : 급여) 변수를 개별 범주로 변환하고 해당 범주와 다른 기호 집합 간의 상호 정보를 계산할 수 있습니다.


상관 관계는 선형 함수가 아닙니다. 상관 관계가 랜덤 변수 간 선형 관계의 척도라고 말해야합니까?
Matthew Gunn

1
"이것은 심볼 세트에 대해 정의 된 두 개의 확률 사이에 상호 정보를 가질 수 있지만 R ^ N 공간에 자연적으로 매핑 될 수없는 심볼 사이의 상관 관계는 가질 수 없습니다"라고 생각합니다. 완전한 랜덤 변수가 없다면 Corr은 의미가 없습니다. 그러나 pmi는 pdf 및 sigma (공백)만으로도 의미가 있습니다. 이것이 RV가 의미가없는 많은 어플리케이션 (예 : NLP)에서 pmi가 사용되는 이유입니다.
thang

6

다음은 예입니다.

이 두 도표에서 상관 계수는 0입니다. 그러나 상관 관계가 0 인 경우에도 높은 공유 상호 정보를 얻을 수 있습니다.

첫 번째로, X 값이 높거나 낮은 경우 Y 값이 높을 가능성이 높습니다. 그러나 X 값이 중간이면 Y 값이 낮습니다. 첫 번째 줄거리 X와 Y가 공유하는 상호 정보에 대한 정보를 보유합니다. 두 번째 플롯에서 X는 Y에 대해 아무 것도 알려주지 않습니다.

상호 정보 대 상관


4

둘 다 피처 간의 관계를 측정하지만 MI는 상관 관계 계수 (CE)보다 일반적이며 CE는 선형 관계 만 고려할 수 있지만 MI는 비선형 관계도 처리 할 수 ​​있습니다.


그건 사실이 아니야. Pearson 상관 계수는 두 개의 임의 변수의 정규성과 선형성을 가정하지만 비모수 Spearman과 같은 대안은 그렇지 않습니다. 두 rv 사이에는 단 조성이 있다고 가정합니다.
야옹
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.