데이터가 IID인지에 대한 결론은 데이터 자체가 아닌 외부 정보에서 비롯됩니다. 과학자는 데이터 수집 방법 및 기타 외부 정보를 기반으로 데이터 IID를 가정하는 것이 합리적인지 판단해야합니다.
몇 가지 예를 고려하십시오.
시나리오 1 : 2 개의 법선이 혼합 된 단일 분포와 독립적으로 데이터 집합을 생성합니다.
시나리오 2 : 먼저 이항 분포에서 성별 변수를 생성 한 다음 남성과 여성 내에서 정규 분포에서 데이터를 독립적으로 생성하지만 (남성과 여성의 경우 법선이 다름) 성별 정보를 삭제하거나 잃습니다.
시나리오 1에서는 데이터가 IID이고 시나리오 2에서는 데이터가 동일하게 분배되지 않고 (남성과 여성에 대해 다른 분포), 두 시나리오에 대한 2 개의 분포는 데이터와 구분할 수 없으므로 데이터의 방법에 대해 알아야합니다. 차이를 결정하기 위해 생성되었습니다.
시나리오 3 : 저는 도시에 살고있는 사람들을 무작위로 무작위 추출하여 설문 조사를 실시하고 결과를 분석하여 도시의 모든 사람들에 대해 추론합니다.
시나리오 4 : 저는 도시에 살고있는 사람들을 무작위로 무작위 추출하여 설문 조사를 실시하고 그 결과를 분석하여 그 나라의 모든 사람들에 대해 추론합니다.
시나리오 3에서 대상은 독립적 (관심있는 인구 집단의 간단한 무작위 표본)으로 간주되지만 시나리오 4에서는 대상 집단의 작은 부분 집합에서 선택 되었기 때문에 독립적으로 간주되지 않았으며 지리적 근접성은 의존. 그러나 두 데이터 세트는 동일합니다.이 경우 데이터가 독립적인지 아니면 종속적인지를 결정하는 데이터를 사용하려는 방식입니다.
따라서 데이터 만 사용하여 데이터가 IID임을 나타내는 테스트 방법은 없으며 플롯 및 기타 진단은 일부 유형의 비 IID를 표시 할 수 있지만 이러한 유형이 부족하더라도 데이터가 IID임을 보장하지는 않습니다. 또한 특정 가정과 비교할 수도 있습니다 (IID 일반은 IID보다 반증하기 쉽습니다). 모든 테스트는 여전히 제외되지만 테스트를 거부하지 않아도 테스트가 IID임을 증명하지 않습니다.
IID 조건 보유 여부를 기꺼이 결정할 것인지 여부는 데이터 수집 방법, 다른 정보와의 관련성 및 사용 방법에 대한 과학을 기반으로 결정해야합니다.
편집 :
다음은 동일하지 않은 다른 예입니다.
시나리오 5 : 데이터가 이분산성이있는 회귀 분석에서 잔차입니다 (분산이 같지 않음).
시나리오 6 : 데이터는 평균이 0이지만 분산이 다른 법선이 혼합 된 것입니다.
시나리오 5에서 적합 치나 다른 변수 (예측 자 또는 잠재적 예측 변수)에 대해 잔차를 표시하면 잔차가 동일하게 분포되지 않지만 잔차 자체 (외부 정보없이)는 시나리오 6과 구별되지 않습니다.