두 개의 연속 변수가 독립적인지 어떻게 테스트합니까?


48

I는 샘플이 가정 의 결합 분포 XY . XY독립적 이라는 가설을 어떻게 테스트 합니까?(Xn,Yn),n=1..NXYXY

Y 의 합동 또는 한계 분포 법칙에 대한 가정은 없습니다 (이러한 경우 독립성은 상관 관계가 0 과 동일하므로 모든 합동 정규성이 가장 적음 ).XY0

Y 사이의 가능한 관계의 특성에 대해서는 가정하지 않습니다 . 이는 비 - 선형 일 수 있으므로 변수는 상관 ( R = 0 )이지만 높은 CO 의존성 ( I = H ).XYr=0I=H

두 가지 접근 방식을 볼 수 있습니다.

  1. 변수를 모두 묶고 Fisher의 정확한 검정 또는 G- 검정을 사용하십시오 .

    • 장점 : 잘 확립 된 통계 테스트 사용
    • 단점 : 비닝에 따라 다름
  2. XY종속성 을 추정합니다 . I ( X ; Y )XYI(X;Y)H(X,Y) (이것은 인독립적 대한XY1가 완전히 서로를 결정).0XY1

    • Pro : 명확한 이론적 의미로 숫자를 생성합니다
    • 단점 : 근사 엔트로피 계산에 따라 다릅니다 (즉, 다시 비닝).

이러한 접근 방식이 의미가 있습니까?

사람들이 사용하는 다른 방법은 무엇입니까?


3
거리 상관 관계를 살펴보십시오 .
Ray Koopman

@RayKoopman : 고맙습니다, 지금 거리의 상관 관계에 의한 측정 및 테스트 의존성을 읽고 있습니다!
sds

1
I(X;Y)/H(X;Y)HXY

@fonini : 물론 비닝 변수에 대해 이야기했습니다. 그래도 귀하의 의견에 감사드립니다.
sds

답변:


27

일반적으로 매우 어려운 문제이지만 변수는 분명히 1d이므로 도움이됩니다. 물론 첫 번째 단계 (가능한 경우)는 데이터를 플로팅하고 어떤 것이 나에게 나타나는지 확인해야합니다. 당신은 2D에 있으므로 쉽게 할 수 있습니다.

Rn

  • 언급했듯이, 엔트로피를 통해 상호 정보를 추정하십시오. 이것이 최선의 선택 일 수 있습니다. 가장 가까운 이웃 기반 추정량은 낮은 차원에서는 괜찮으며 2d에서는 막대 그래프조차 끔찍하지 않습니다. 추정 오차가 걱정된다면,이 추정기는 간단하고 유한 표본 경계를 제공합니다 (대부분의 다른 것들은 점근 적 특성만을 나타냄).

    Sricharan, Raich 및 Hero. 엔트로피 기능에 대한 경험적 추정. arXiv : 1012.4188 [math.ST]

    대안 적으로, 상호 정보를위한 유사한 직접 추정기가있다.

    팔, 포조, 스 베페 사리. NIPS 2010, 일반화 된 가장 가까운 이웃 그래프를 기반으로 한 Rényi 엔트로피 및 상호 정보 추정 .

  • 힐버트-슈미트 독립 기준 : 커널 (KDE가 아닌 RKHS의 의미) 기반 접근 방식.

    Gretton, Bousqet, Smola 및 Schölkopf, Hilbert-Schmidt Norms와의 통계적 독립성 측정 , 알고리즘 학습 이론 2005.

  • 슈바이처 울프 (Schweizer-Wolff) 접근 방식 : copula 변환을 기반으로하므로 모노톤 증가 변환에는 변하지 않습니다. 나는 이것에 익숙하지 않지만 계산적으로 간단하지만 덜 강력하다고 생각합니다.

    Schweizer and Wolff, 랜덤 변수에 대한 비모수 적 의존도 측정 , Annals of Statistics 1981.


이러한 접근 방식이 거리 상관 과 어떻게 비교되는지 간단히 언급 할 수 있습니까 ? 나는 DC를 사용하여 큰 데이터 세트 (나를 위해 큰)를 걸러 내고 있기 때문에 당신이 가지고있는 의견에 관심이 있습니다. 감사!
pteetor

1
@pteetor 흥미 롭습니다. 전에 거리 상관 관계를 뛰어 넘어 본 적이 없었습니다. 계산적으로, 전체 거리 행렬 (엔트로피 추정기의 경우 인덱스를 사용하여 첫 번째 k이웃 만 얻을 수 있음)이 필요하기 때문에 큰 표본 크기에 대한 엔트로피 추정 방법보다 비용이 많이 듭니다 . 통계 력 등의 측면에서 어떻게 비교되는지
Dougal

4
이후 독자들을 위해 : Sejdinovic et al.에 의한 가설 테스트에서 거리 및 RKHS 기반 통계 의 2013 년 논문 동등성 . 거리 상관 관계 및 기타 에너지 거리는 HSIC의 기본 척도 인 MMD의 특정 사례이며 테스트 전력 등의 관계를 설명합니다.
Dougal


6

이 논문은 어떻습니까 :

http://arxiv.org/pdf/0803.4101.pdf

"거리의 상관 관계에 의한 의존성 측정 및 테스트". 세케 클리와 바키 로프는 항상 흥미로운 것들을 가지고 있습니다.

구현을위한 matlab 코드가 있습니다.

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

독립성에 대한 다른 (구현하기 쉬운) 테스트가 있으면 알려주십시오.


2
@JLp 사이트에 오신 것을 환영합니다. 질문과 답변의 형태로 고품질 통계 정보를 영구적으로 보관할 수 있기를 바랍니다. 따라서 우리가 걱정하는 것은 linkrot입니다. 그 점을 염두에두고, 링크가 죽을 경우를 대비하여 해당 논문의 내용 / 질문에 대한 답변에 대한 요약을 제공 하시겠습니까? 또한이 글의 미래 독자들이 논문을 읽는 데 시간을 투자 할 것인지 결정하는 데 도움이 될 것입니다.
gung-복직 모니카

@ gung : 이것은 에너지
sds

5

거리 공분산과 커널 테스트 (Hilbert-Schmidt 독립 기준에 따라) 사이의 링크는 논문에 나와 있습니다.

Sejdinovic, D., Sriperumbudur, B., Gretton, A. 및 Fukumizu, K., 가설 검정에서 거리 기반 및 RKHS 기반 통계의 동등성, Annals of Statistics, 41 (5), pp.2263-2702, 2013 년

거리 공분산은 특정 커널 계열에 대한 커널 통계의 특별한 경우임을 보여줍니다.

상호 정보를 사용하려는 경우 MI의 비닝 추정치를 기반으로하는 테스트는 다음과 같습니다.

Gretton, A. 및 Gyorfi, L., 일관된 비모수 독립성 테스트, Journal of Machine Learning Research, 11, pp.1391--1423, 2010.

최상의 테스트 성능을 얻으려면 비닝 및 상호 정보보다는 커널 테스트를 사용하는 것이 좋습니다.

즉, 변수가 일 변량이므로 Hoeffding과 같은 고전적인 비모수 독립성 테스트는 아마 좋습니다.


4

통계에서 드물게 (절대?) 샘플 통계량 = 포인트 값임을 알 수 있습니다. 포인트 값을 테스트하여 제외하거나 제외하지 않을 수 있습니다. 그러나 통계의 특성은 변수 데이터를 검사하는 것입니다. 항상 차이가 있기 때문에 무언가가 정확하게 관련되지 않았거나 정상, 가우시안 등을 알 수있는 방법이 없을 것입니다. 값의 범위 만 알 수 있습니다. 가능한 값의 범위에서 값이 제외되는지 알 수 있습니다. 예를 들어, 관계를 배제하고 관계의 규모에 대한 값의 범위를 쉽게 지정할 수 있습니다.

따라서 관계를 보여 주려고 노력하지 않으면 본질적으로 점수 relationship = 0가 성공하지 못합니다. 약 0으로 받아 들일 수있는 다양한 관계 측정 값이있는 경우 테스트를 고안 할 수 있습니다.

이 제한을 수용 할 수 있다고 가정하면 lowess 곡선이있는 산점도를 제공하려는 사람들에게 도움이 될 것입니다. R 솔루션을 찾고 있으므로 다음을 시도하십시오.

scatter.smooth(x, y)

지금까지 제공 한 제한된 정보를 바탕으로 일반화 된 추가 모델이 비 독립성을 테스트하는 가장 좋은 방법이라고 생각합니다. 예측 값을 CI로 플로팅하면 독립성에 대한 진술을 할 수 있습니다. gammgcv 패키지에서 확인하십시오 . 도움이 아주 좋고 여기 CI 에 관한 도움이 있습니다 .


2

흥미로울 수도 있습니다 ...

가르시아, JE; Gonzalez-Lopez, VA (2014) 독립 시퀀스는 가장 긴 증가하는 서브 시퀀스를 기반으로 연속 랜덤 변수를 테스트합니다. 다변량 분석 저널, v. 127 p. 126-146.

http://www.sciencedirect.com/science/article/pii/S0047259X14000335


2
이 게시물은 기사에 포함 된 내용, 특히 페이 월 뒤에있는 내용에 대한 자세한 내용을 활용할 수 있습니다.
Erik

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.