상호 정보를 사용하여 연속 변수와 범주 변수 간의 상관 관계 추정


13

제목에 관해서는 연속 변수와 범주 변수 사이의 "상관 관계"( "B를 알고있을 때 A에 대해 얼마나 많이 알고 있는지"로 정의)를 추정하기 위해 MI 이후에 MI 이후에 상호 정보를 사용하는 것이 좋습니다. 잠시 후에이 문제에 대한 의견을 말씀 드리지만 , 유용한 정보가 포함 된 CrossValidated에 대한이 다른 질문 / 답변 을 읽어 보시기 바랍니다 .

이제 범주 형 변수를 통합 할 수 없으므로 연속 형 변수를 이산해야합니다. 이것은 대부분의 분석을 수행 한 언어 인 R에서 매우 쉽게 수행 할 수 있습니다. 이 cut함수는 값의 별칭 을 지정하기 때문에 함수 를 사용하는 것을 선호 했지만 다른 옵션도 사용할 수 있습니다. 요점은, 임의의 이산화가 수행되기 전에 "빈 (bin)"(이산 된 상태)의 수를 우선적 으로 결정 해야한다는 것이다.

그러나 주요 문제는 또 다른 문제입니다. MI의 범위는 표준화되지 않은 측정 단위이므로 0에서 ∞ 사이입니다. 그것은 상관 계수로 사용하기가 매우 어렵습니다. 이것은 MI의 표준화 된 버전 인 GCC의 전후에 글로벌 상관 계수를 사용하여 부분적으로 해결 될 수 있습니다 . GCC는 다음과 같이 정의됩니다.

여기에 이미지 설명을 입력하십시오

참고 : 공식은 Andreia Dionísio, Rui Menezes & Diana Mendes, 2010의 주식 시장 세계화 분석을위한 비선형 도구로서의 상호 정보에서 나온 것입니다.

GCC의 범위는 0에서 1이므로 두 변수 간의 상관 관계를 쉽게 추정 할 수 있습니다. 문제가 해결 되었습니까? 글쎄요 이 모든 과정은 우리가 이산화 과정에서 사용하기로 결정한 '빈'의 수에 크게 의존하기 때문입니다. 내 실험 결과는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

y 축에는 GCC가 있고 x 축에는 이산화에 사용하기로 결정한 '빈'수가 있습니다. 두 줄은 서로 다른 두 데이터 집합에 대해 수행 한 두 가지 분석을 나타냅니다.

일반적으로 MI와 GCC의 사용은 여전히 ​​논란의 여지가있는 것 같습니다. 그러나이 혼란은 내 편에서 실수 한 결과 일 수 있습니다. 어떤 경우이든 문제에 대한 귀하의 의견을 듣고 싶습니다 (또한 범주 변수와 연속 변수 사이의 상관 관계를 추정하는 다른 방법이 있습니까?).


2
연속 변수와 이산 변수의 공동 분포에 대한 상호 정보 계산에 대해서는 언급 할 수 없지만 정규화 된 상호 정보 변형을 계산할 경우 비닝 효과를 제거해야한다고 제안 할 수 있습니다. 일반적으로 엔트로피의 합 또는 관절 엔트로피에 의해 정규화되는 것. 때문에 엔트로피의 합이 조금 더 좋습니다 . H(Xi,Xj)H(Xi)+H(Xj)
Jessica Collins

BTW, 여기 누군가가 비닝 방법을 시도하려는 경우의 코드입니다.
zkurtz

4
"상관"을 추정하지 않습니다. 상호 정보를 추정하고 있습니다. 하나는 다른 하나를 추정하지 않습니다. 그것들은보다 일반적인 협회 개념에 대한 뚜렷한 척도이다 .
zkurtz

아마도이 글의 더 좋은 제목은 "범주 형 변수와의 상호 정보를 추정하기 위해 연속 변수를 가장 잘 묶는 방법"입니다.
zkurtz

다음 은 흥미로운 비-바 이닝 방식입니다. 불행히도 R 구현을 찾을 수 없습니다.
zkurtz

답변:


5

이 문제를 해결하는 더 간단하고 좋은 방법이 있습니다. 범주 형 변수는 사실상 일련의 지표 변수입니다. 이러한 변수가 범주의 레이블을 다시 지정하는 데 변하지 않는 측정 이론의 기본 아이디어이므로 다른 변수 간의 관계를 측정 할 때 범주의 숫자 레이블을 사용하는 것은 이치에 맞지 않습니다 (예 : '상관') . 이러한 이유로 연속 변수와 범주 형 변수 사이의 관계 측정은 후자에서 파생 된 지표 변수에 전적으로 기반해야합니다.

두 변수 사이의 '상관성'측정을 원한다면 연속 랜덤 변수 와 범주 형 변수에서 파생 된 표시기 임의 변수 의 상관 관계를 살펴 보는 것이 좋습니다 . 분들께 우리가 가진 :XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

이것은 다음을 제공합니다.

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

따라서 연속 난수 변수 와 지표 난수 변수 사이의 상관 관계 는 지표 확률 와 컨디셔닝 에서 기대되는 기대 값의 표준화 된 이득 의 상당히 간단한 함수입니다 . 이 상관 관계는 연속 랜덤 변수의 불연속 화를 요구하지 않습니다.I ϕ X I = 1XIϕXI=1


범위가 일반 범주 형 변수 의 경우 범주 형 변수의 각 결과에 대해 상관 값으로 구성된 벡터 를 갖도록이 아이디어를 확장 하면됩니다. 결과 대해 해당 지표 를 정의 할 수 있으며C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

그런 다음 을 상관 값의 벡터로 정의 할 수 있습니다 범주 형 랜덤 변수의 각 범주. 이것은 범주 형 랜덤 변수에 대한 '상관'에 대해 이야기하는 것이 합리적입니다.Corr(C,X)(Corr(I1,X),...,Corr(Im,X))

( 참고 : 임을 나타내는 것은 사소한 이므로 범주 형 랜덤 변수에 대한 상관 벡터는이 제약 조건의 적용을받습니다. 범주 형 랜덤 변수 및 의 표준 편차를 사용하면 요소의 모든 에서 벡터를 도출 할 수 있습니다 .)kCov(Ik,X)=0Xm1


위의 설명은 실제 상관 값에 대한 것이지만, 반드시 주어진 분석에서 추정되어야합니다. 샘플 데이터에서 지표 상관을 추정하는 것은 간단하며 각 부품에 대한 적절한 추정치를 대체하여 수행 할 수 있습니다. (원하는 경우 더 빠른 추정 방법을 사용할 수 있습니다.) 표본 데이터 가 주어지면 상관 방정식의 부분을 다음과 같이 추정 할 수 있습니다.(x1,c1),...,(xn,cn)

ϕ^k1ni=1nI(ci=k).

E^(X)x¯1ni=1nxi.

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

이러한 추정치의 대체는 상관 벡터의 기본 추정치를 산출합니다. 대한 파라 메트릭 정보가있는 경우 최대 가능성 또는 다른 기술을 사용하여 상관 관계 벡터를 직접 추정 할 수 있습니다.X

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.