통계 학자들이 상호 정보를 연관의 척도로 사용하지 않는 이유는 무엇입니까?


10

나는 비 통계 학자들이 회귀 (또는 동등하거나 밀접한 관련 통계 테스트)보다는 상호 정보를 사용하여 상관 측정을 재창조하는 것처럼 보이는 몇 가지 대화를 보았습니다.

통계 학자들이이 접근법을 사용하지 않는 좋은 이유가 있다고 생각합니다. 저의 평신도의 이해는 엔트로피 / 상호 정보 추정자가 문제가 있고 불안정한 경향이 있다는 것입니다. 결과적으로 전력도 문제가 있다고 가정합니다. 그들은 파라 메트릭 테스팅 프레임 워크를 사용하지 않는다고 주장함으로써이 문제를 해결하려고합니다. 일반적으로 이런 종류의 작업은 전력 계산이나 신뢰 / 신뢰할 수있는 간격을 방해하지 않습니다.

그러나 악마의 옹호자 입장을 취하기 위해 데이터 세트가 매우 클 때 느린 수렴은 큰 문제입니까? 또한, 이러한 방법은 후속 연구에 의해 협회가 검증된다는 의미에서 "작동"하는 것처럼 보입니다. 상호 정보를 연관 척도로 사용하는 것에 대한 가장 좋은 비판은 무엇이며 통계 관행에 널리 사용되지 않는 이유는 무엇입니까?

편집 : 또한 이러한 문제를 다루는 좋은 논문이 있습니까?


3
MI는 두 개의 이산 변수 간의 연관 측정입니다. 일반 통계 (일부 특수 하위 필드에있을 수 있음)의 설정이 실제로 일반적인 것은 아닙니다. 그러나 그 설정 내에서 나는 그것이 자주 사용되는 것을 보았다. 확실히, 이변 량 이산 데이터 세트에서 Pearson 상관 관계를 사용하는 적용되는 사람들을 만날 때 MI를 지적합니다.
user603

1
stats.stackexchange.com/questions/1052/ 도 참조하십시오. 그러나 여기에서의 논의는 이미 제 생각에는 좋거나 낫기 때문에 중복에 대한 일반적인 질문은 무의미합니다.
Nick Cox


2
더 일반적인 언급은 Matthew Reimherr와 Dan L. Nicolae입니다. 정량화 의존성 : 해석 가능한 측정법 개발을위한 프레임 워크. 통계 과학 28 : 116-130.
Nick Cox

답변:


4

범주 형 (이산) 데이터와 연속 데이터를 구별해야한다고 생각합니다.

연속 데이터의 경우 Pearson 상관 관계는 선형 (단조) 관계를 측정하고 상관 관계는 단조 관계로 순위를 매 깁니다.

반면에 MI는 모든 관계를 "감지"합니다. 이것은 일반적으로 관심이 있거나 소음 일 가능성이 있습니다. 특히 분포 밀도를 추정해야합니다. 그러나 연속적이므로 먼저 히스토그램 [이산 빈]을 만든 다음 MI를 계산합니다. 그러나 MI는 모든 관계를 허용하므로 작은 빈을 사용할수록 MI가 변경됩니다 (즉, 더 많은 흔들림을 허용 함). 따라서 MI 추정이 매우 불안정하여 추정 등에 대한 신뢰 구간을 설정할 수 없습니다. [연속 밀도 추정을 수행하는 경우에도 동일합니다.] 기본적으로 실제로 계산하기 전에 추정 할 항목이 너무 많습니다. MI.

반면 범주 형 데이터는 MI 프레임 워크에 아주 잘 맞으며 (G- 테스트 참조) G- 검정과 카이 제곱 중에서 선택하는 것이 많지 않습니다.


나는 주로 이산 적 연관 사례를 언급하고 있습니다 (회귀로 인해 OLS뿐만 아니라 GLM을 염두에 두었습니다). 사실, 복잡한 현상 (예 : 유전학) 연구 과학자의 많은 (감지 그들은 당신이 설명하고 단지 것에 더 관심이 말할 수 있는 관계). "상관 관계의 기능적 형태가 틀리면 어떻습니까? 물론 어떤 관계 라도 감지하고 싶습니다 !"라는 명백한 공통 비판을 피하려는 유혹 . 강하다. 그러나 나는 여기서 놀이에 자유로운 점심 오류가 있다고 생각하지만, 더 분명히 말하고 이해하려고 노력하고 있다고 간과 될 것입니다.
user4733

1
...하지만 LR 테스트와 MI의 관계를 알지 못했습니다. 매우 흥미 롭습니다!
user4733
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.