IID 샘플링 테스트


16

샘플링이 IID (독립적이고 동일하게 분배 됨)인지 어떻게 테스트하거나 확인 하시겠습니까? 나는 가우시안과 동일하게 분산 된 것이 아니라 IID만을 의미합니다.

그리고 내 생각은 아이디어를 동일한 크기의 두 개의 하위 샘플로 반복해서 분할하고 Kolmogorov-Smirnov 테스트를 수행하고 p- 값의 분포가 균일한지 확인하는 것입니다.

이 접근법에 대한 의견과 제안은 환영합니다.

현상금 시작 후 설명 : 시계열이 아닌 데이터에 적용 할 수있는 일반적인 테스트를 찾고 있습니다.


시계열 데이터입니까?
danas.zuokas

"눈알"테스트를 해보셨습니까? 즉, 데이터를 플로팅하고 IID로 보이는지 확인하십시오.
매크로

하지 않았습니다. 무슨 뜻인지 잘 모르겠습니다. 순서대로 값을 플로팅하십시오 (아마도 무작위 임)? 그리고 눈에 띄는 패턴이 없는지 확인하십시오.
gui11aume


1
죄송합니다. apprendre-en-ligne.net/random/run.html 실행 테스트를 염두에두고 있었지만 프랑스어로 작성되었습니다.
Stéphane Laurent

답변:


14

데이터가 IID인지에 대한 결론은 데이터 자체가 아닌 외부 정보에서 비롯됩니다. 과학자는 데이터 수집 방법 및 기타 외부 정보를 기반으로 데이터 IID를 가정하는 것이 합리적인지 판단해야합니다.

몇 가지 예를 고려하십시오.

시나리오 1 : 2 개의 법선이 혼합 된 단일 분포와 독립적으로 데이터 집합을 생성합니다.

시나리오 2 : 먼저 이항 분포에서 성별 변수를 생성 한 다음 남성과 여성 내에서 정규 분포에서 데이터를 독립적으로 생성하지만 (남성과 여성의 경우 법선이 다름) 성별 정보를 삭제하거나 잃습니다.

시나리오 1에서는 데이터가 IID이고 시나리오 2에서는 데이터가 동일하게 분배되지 않고 (남성과 여성에 대해 다른 분포), 두 시나리오에 대한 2 개의 분포는 데이터와 구분할 수 없으므로 데이터의 방법에 대해 알아야합니다. 차이를 결정하기 위해 생성되었습니다.

시나리오 3 : 저는 도시에 살고있는 사람들을 무작위로 무작위 추출하여 설문 조사를 실시하고 결과를 분석하여 도시의 모든 사람들에 대해 추론합니다.

시나리오 4 : 저는 도시에 살고있는 사람들을 무작위로 무작위 추출하여 설문 조사를 실시하고 그 결과를 분석하여 그 나라의 모든 사람들에 대해 추론합니다.

시나리오 3에서 대상은 독립적 (관심있는 인구 집단의 간단한 무작위 표본)으로 간주되지만 시나리오 4에서는 대상 집단의 작은 부분 집합에서 선택 되었기 때문에 독립적으로 간주되지 않았으며 지리적 근접성은 의존. 그러나 두 데이터 세트는 동일합니다.이 경우 데이터가 독립적인지 아니면 종속적인지를 결정하는 데이터를 사용하려는 방식입니다.

따라서 데이터 만 사용하여 데이터가 IID임을 나타내는 테스트 방법은 없으며 플롯 및 기타 진단은 일부 유형의 비 IID를 표시 할 수 있지만 이러한 유형이 부족하더라도 데이터가 IID임을 보장하지는 않습니다. 또한 특정 가정과 비교할 수도 있습니다 (IID 일반은 IID보다 반증하기 쉽습니다). 모든 테스트는 여전히 제외되지만 테스트를 거부하지 않아도 테스트가 IID임을 증명하지 않습니다.

IID 조건 보유 여부를 기꺼이 결정할 것인지 여부는 데이터 수집 방법, 다른 정보와의 관련성 및 사용 방법에 대한 과학을 기반으로 결정해야합니다.

편집 :

다음은 동일하지 않은 다른 예입니다.

시나리오 5 : 데이터가 이분산성이있는 회귀 분석에서 잔차입니다 (분산이 같지 않음).

시나리오 6 : 데이터는 평균이 0이지만 분산이 다른 법선이 혼합 된 것입니다.

시나리오 5에서 적합 치나 다른 변수 (예측 자 또는 잠재적 예측 변수)에 대해 잔차를 표시하면 잔차가 동일하게 분포되지 않지만 잔차 자체 (외부 정보없이)는 시나리오 6과 구별되지 않습니다.


이 답변의 첫 번째 부분은 특히 나에게 약간 혼란 스럽거나 혼란 스럽습니다. iid는 유한 한 랜덤 변수 집합에 대해 잘 정의 된 수학적 속성 입니다 . 두 번째 경우의 랜덤 변수가 "성별 정보를 잃은 후"얻은 경우 시나리오 1과 2 는 동일 합니다. 그들은 두 경우 모두 iid입니다!
추기경

GregSnow 나는 당신의 주장에 전적으로 동의하지 않습니다. 데이터가 동일하게 분포 된 랜덤 변수 시퀀스에서 나온다는 것을 알고있을 것입니다. 정확히 어떤 모델이 모델을 생성했는지 알 수 없습니다. 그것들은 독립적으로 생성되거나 고정 시계열에서 교대로 나올 수 있습니다. 어떤 경우인지 결정하기 위해 동일한 분포가 정상이라는 것을 알고 있다고 가정하십시오. 그런 다음 두 possiblities는 고정 된 순서의 범주에 해당하고 만 모든 제로 지연 자기 상관보고 시험에 완벽하게 합리적인 0 경우는 IID 될 것입니다 경우 correla
마이클 R. Chernick

2
@ cardinal, 그래서 당신은 성별 정보를 잃기 전에 시나리오 2의 데이터가 동일하게 분포되지 않는다는 것에 동의합니까? 따라서 우리는 그것들이 동일하지 않은 경우가 있지만 차이점을 알 수있는 유일한 방법은보고있는 변수 외부에서 정보를 사용하는 것입니다 (이 경우 성별). 예 IID는 잘 정의 된 수학적 특성이지만 정수이기도합니다. 데이터 포인트 3이 부동 소수점 숫자로 저장된 정수인지 또는 어디서 왔는지에 대한 외부 정보없이 반올림 된 연속 값인지 테스트 할 수 있습니다. 에서.
Greg Snow

2
ZXiXj,ijXi|ZXj|ZZZ

그러나 위에서 말한 모든 내용은 데이터 자체가 아니라 데이터 수집 / 생성 방법에 대한 정보를 사용합니다. 또한 우리가 공간 상관 관계 나 다른 유형의 비 독립성에 대해 알려주지 않는 시계열 자기 상관이 없다는 것을 뒷받침하는 데이터가 있다고해도. 가능한 모든 유형의 의존성을 테스트하고 의미있는 결과를 얻을 수 있습니까? 또는 데이터를 수집 한 방법에 대한 정보를 사용하여 어떤 테스트가 의미가있을 가능성이 가장 높은지 안내해야합니까?
Greg Snow

5

데이터에 인덱스 순서가 있으면 시계열에 화이트 노이즈 테스트를 사용할 수 있습니다. 본질적으로 이는 0이 아닌 모든 지연에서 자기 상관이 0인지 테스트하는 것을 의미합니다. 이는 독립 부분을 처리합니다. 귀하의 접근 방식은 주로 동일하게 분산 된 가정의 부분을 해결하려고한다고 생각합니다. 귀하의 접근 방식에 문제가 있다고 생각합니다. 균일 성을 테스트하기에 충분한 p- 값을 얻기 위해서는 많은 분할이 필요하다고 생각합니다. 그런 다음 각 KS 테스트에 전원이 공급되지 않습니다. 데이터 세트의 일부에서 겹치는 분할을 사용하는 경우 테스트가 상관됩니다. 분할 수가 적 으면 균일 성 검정에 검정력이 부족합니다. 그러나 많은 분할로 균일 성 테스트는 강력하지만 KS 테스트는 강력하지 않을 수 있습니다. 또한이 접근법은 변수 간의 의존성을 감지하는 데 도움이되지 않는 것 같습니다.

@ gu11aume 나는 비 타임 시리즈에 대한 일반적인 테스트로 무엇을 요구하는지 잘 모르겠습니다. 공간 데이터는 비 시간 계열 데이터의 한 형태를 제공합니다. 거기에서 variogram이라는 기능을 볼 수 있습니다. 1 차원 시퀀스의 경우 시간 순서로 정렬 된 시퀀스와 데이터를 정렬하는 다른 방법 사이에는 큰 차이가 없습니다. 자기 상관 함수는 여전히 정의되고 테스트 될 수 있습니다. 샘플링에서 독립성을 테스트하고 싶다고 말하면 샘플이 수집되는 순서가 있다고 생각합니다. 따라서 모든 1 차원 사례는 같은 방식으로 작동한다고 생각합니다.


2
(+1) 이것이 내가 생각한 것이므로 Re : "데이터에 인덱스 순서가 있으면 시계열에 화이트 노이즈 테스트를 사용할 수 있습니다. 기본적으로 이는 0이 아닌 모든 지연에서 자기 상관이 0인지 테스트하는 것을 의미합니다." -이 논리는 고정 시계열을 다룰 때만 적용됩니다. 그렇지 않으면 지연된 상관 관계에 대해 잘못된 결과를 얻을 수 있습니다. 예를 들어, 시계열의 "나중"부분 만 자동 상관 된 경우 어떻게됩니까?
매크로

1
@ 매크로 OP에 대한 귀하의 질문을 바탕으로 귀하가 염두에 둔 것으로 생각했습니다. 그러나 나는 그의 대답이 이것을 지적하기를 기다릴 필요가 없다고 생각했다. 독립을 찾을 때 적용됩니다. 그러나 나는 당신의 요점을 이해합니다. 실제로 첫 번째 지연 만 확인합니다. 계열이 정지 상태이면 상관 관계는 k와 함께 감소하지만 정지되지 않은 계열에서는 그렇지 않습니다. 따라서 적어도 이론 상으로는 정지하지 않은 시리즈에 대해 큰 지연에서 상관 관계를 놓치게됩니다.
Michael R. Chernick

2
cor(yt,ys)=f(s,t)f(s,t)|st|

답변 해 주셔서 감사합니다. Michael! 데이터가 시계열 인 경우 자동 상관 관계를 확인하는 것이 가장 좋습니다. 분할 KS 접근법에 대한 당신의 비판에 관해서도 당신은 요점을 가지고 있습니다. 따라서 일반적인 (비 시계열) 경우에는 테스트가 여전히 남아 있지 않습니다.
gui11aume

2
0이 아닌 첫 번째 자기 상관은 지연 60에서 60의 다른 배수에서만 발생합니다. 시계열의 길이가 55 인 경우 두 점 60 지연을 볼 수 없습니다. 따라서 지연 60 상관이 0인지 여부를 확인할 수 없습니다. 계열의 길이가 65 인 경우 지연 60 상관을 추정 할 수 있지만 5 지연 60 쌍만 기반으로합니다. 따라서 추정값의 분산이 크기 때문에이 0이 아닌 상관 관계를 감지 할 수있는 권한이 없습니다.
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.