비선형 상관 관계를 감지하기위한 MIC 알고리즘을 직관적으로 설명 할 수 있습니까?


20

최근에는 두 기사를 읽었습니다. 첫 번째 는 상관의 역사에 관한 것이고 두 번째는 는 는 MIC (Maximal Information Coefficient)라는 새로운 방법에 관한 것입니다. 변수 간의 비선형 상관 관계를 추정하기 위해 MIC 방법을 이해하는 데 도움이 필요합니다.

또한 R에서의 사용 지침은 작성자 웹 사이트 ( Downloads 아래 ) 에서 찾을 수 있습니다 .

이것이이 방법을 논의하고 이해하기에 좋은 플랫폼이되기를 바랍니다. 이 방법의 직관과 저자가 말한대로 확장 할 수있는 방법에 대해 토론하고 싶습니다.

" ... 우리는 MIC (X, Y)를 MIC (X, Y | Z)로 확장해야합니다. MIC를 안정적으로 추정하기 위해 얼마나 많은 데이터가 필요한지, 이상치에 얼마나 민감한 지, 어떤 것이 3 개인 지 알아야합니다. -또는 더 높은 차원의 관계는 놓칠 것입니다. MIC는 큰 발전이지만 더 많은 조치가 필요합니다. "


질문은 흥미롭지 만 대답 할 수 없다고 생각합니다. 좀 더 구체적으로 말씀해 주시겠습니까?
mpiktas

3
Science의 기사가 공개적으로 액세스 할 수 없다는 사실로 인해 토론이 방해 될 것입니다.
Itamar

7
다음 은 저자 중 한 명이 해방 한 논문의 사본입니다.

10
요컨대, MIC는 "모두-산란-플롯-피크-가장 큰 백색 영역"이라는 오래된 아이디어를 발굴 한 것으로서, 오탐 (false positive)을 생성하고 의 비현실적인 복잡성을가집니다. (작성자는 테스트 전용 임의의 무작위로 선택된 쌍 휴리스틱 뒤에 숨어 있으며) 설계에 따라 3 개 이상의 가변 상호 작용이 모두 누락됩니다. 영형(미디엄2)

4
MIC에 대한 기술적 세부 사항은 지원 온라인 자료 가 기사 자체보다 유익합니다.
입술

답변:


22

통계적 동료 검토가 확실치 않은 비 통계 저널에이 내용이 게시되었다고 말하지 않습니까? 이 문제는 비닝이나 여러 단계가 필요없는 간단한 알고리즘을 개발 한 1948 년 (수학 통계 19 : 546) Hoeffding에 의해 해결되었습니다. Hoeffding의 연구는 과학 기사에서도 언급되지 않았습니다. 이것은 수년간 패키지 의 R hoeffd기능에 Hmisc있었습니다. 다음은 예제입니다 ( example(hoeffd)R 유형 ).

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdHoeffding 방법의 상당히 효율적인 포트란 구현을 사용합니다. 그의 테스트의 기본 아이디어는 X와 Y의 조인트 랭크와 X의 한계 랭크와 Y의 한계 랭크의 곱 사이의 차이를 적절히 스케일링하는 것입니다.

최신 정보

Hmisc|에프(엑스,와이)(엑스)H(와이)|


6
(+1) Hoeffding의 논문 은 온라인으로 제공됩니다.
res

1
좋은 발견. 과학에 Hoeffding의 성능과 그들의 성능을 비교할 때 참고할 가치가 있습니다. 50 년대의 많은 훌륭한 연구 (많은 분야에서)가 수년에 걸쳐 잊혀진 것은 유감입니다.
Itamar

6

MIC 방법은 상호 정보 (MI)를 기반으로하며 , X와 Y의 공동 분포와 X와 Y가 독립적 인 경우의 공동 분포는 어떤 관계가 있는지를 정량화합니다 (예 : Wikipedia 항목 참조 ). 수학적으로 MI는 다음과 같이 정의됩니다.

미디엄나는=H(엑스)+H(와이)H(엑스,와이)
어디
H(엑스)=나는(나는)로그(나는)
단일 변수의 엔트로피
H(엑스,와이)=나는,제이(엑스나는,와이제이)로그(엑스나는,와이제이)
두 변수의 공동 엔트로피입니다.

저자의 주요 아이디어 는 데이터를 여러 다른 2 차원 격자로 이산화시키고 각 격자에서 두 변수의 상호 정보를 나타내는 정규화 된 점수를 계산하는 것입니다. 점수는 서로 다른 그리드 간의 공정한 비교를 보장하기 위해 정규화되며 0 (비 상관)과 1 (높은 상관) 사이에서 변합니다.

MIC는 획득 한 최고 점수로 정의되며 두 변수가 얼마나 강한 상관 관계가 있는지를 나타냅니다. 실제로, 저자 는 무소음 기능 관계의 경우 MIC 값이 결정 계수와 비슷하다고 주장 합니다 (아르 자형2).


3

좀 더 명확 특히 MIC의 아이디어를 설명하는 두 개의 좋은 기사를 발견 하나; 여기 두 번째 입니다.

이 읽기에서 알 수 있듯이 그리드의 다른 조합을 탐색하여 두 변수 사이의 다른 복잡성과 관계의 규모를 확대 할 수 있습니다. 이 그리드는 2 차원 공간을 셀로 분할하는 데 사용됩니다. 셀이 MIC를 선택하는 공간을 분할하는 방법에 대한 대부분의 정보를 보유하는 그리드를 선택합니다.

"mblot-all-scatterplots-and-peak-those-withs-biggest-white-area"와 O (M2)의 비현실적인 복잡성을 확장 할 수 있는지 @mbq에게 물어보고 싶습니다.


4
비닝을 사용하는 통계 방법에 대해 걱정합니다.
Frank Harrell

@FrankHarrell 비닝이 왜 나쁜지에 대한 참조 나 직관을 제공 할 수 있습니까? 직관적으로 비닝으로 인해 본질적으로 정보를 버리는 것을 알 수 있지만 그 이유가 더 있을까요?
Kiran K.

시작 위치를 알기에는 너무 많은 참조가 있습니다. 비닝을 기반으로 한 통계 방법은 궁극적으로 살아남지 않습니다. 임의성은 많은 문제 중 하나입니다.
Frank Harrell

@FrankHarrell 의견을 보내주십시오. 제가 추천을 요청한 이유는 박사 과정 학생이며 현재 의존성 및 다변량 의존성 개념을 연구하고 있으며이 논문을 읽고 미래에 저의 작품에서 인용하고 싶습니다. 하나 또는 두 개의 눈에 띄는 것을 언급 할 수 있다면 언급 한 나머지 부분을 찾을 수 있다고 확신합니다. 나는 좋은 것을 찾으면 여기에서 파고 참조를 할 것입니다.
Kiran K.

시작 citeulike.org/user/harrelfe/article/13265458는 다음에서 dichotomization에 대한 다른 정보를 참조 biostat.mc.vanderbilt.edu/CatContinuous를 . 비닝을 요구하지 않는 일반적인 의존성 측정을 위해 citeulike.org/user/harrelfe/article/13264312를 놓치지 마십시오
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.