어느 것을 믿어야합니까 : Kolmogorov-Smirnov 테스트 또는 QQ 플롯?


16

==

x

p<1%

어느 쪽을 믿어야합니까? 그래픽 출력 또는 KS 테스트 결과?

QQplot 및 ECDF 플롯


획득 한 밀도 분포도를 제공 할 수 있습니까?
스크래치

13
테스트와 진단 플롯이 일치하지 않습니다. QQ 플롯에서 볼 수 있듯이 분포는 이론적 인 분포와 유사합니다. 표본 크기는 이론적 크기와 약간의 차이가있을 수있을만큼 충분히 큽니다.
Glen_b-복지 모니카

답변:


18

나는 QQ 플롯을 "믿지"않는다는 의미가 없습니다 (적절하게 제작 한 경우). 정의 분포와 병치 된 데이터의 현실을 그래픽으로 표현한 것입니다. 분명히 완벽하게 일치하는 것은 아니지만 목적에 충분하면 스토리의 끝이 될 수 있습니다. 이 관련 질문을 확인하고 싶을 수도 있습니다 : 정규성 테스트가 '필수적으로 쓸모 없는가?

p

의도 한 목적으로 데이터가 감마 분포와 너무 다른지 여부는 또 다른 질문입니다. KS 테스트만으로는 답을 얻을 수 없습니다 (결과는 샘플 크기에 따라 다르기 때문에). 그러나 QQ 플롯은 결정에 도움이 될 수 있습니다. 또한 실행하려는 다른 분석에 대한 강력한 대안을 찾고 싶을 수 있으며, 이후 분석의 감마 분포 편차에 대한 민감도를 염두에 두어야하는 경우 시뮬레이션 테스트도 고려해야합니다. .


16

당신이 할 수있는 것은 이론적 분포에서 여러 샘플을 만들고 QQ 플롯의 배경에 샘플을 플로팅하는 것입니다. 그러면 샘플링만으로 어떤 종류의 변동성을 합리적으로 기대할 수 있는지 알 수 있습니다.

86-89 페이지의 예제를 사용하여 이론적 선 주위에 봉투를 만들도록이 아이디어를 확장 할 수 있습니다.

Venables, WN and Ripley, BD 2002. S. New York : Springer에 대한 최신 통계 적용.

이것은 포인트 단위의 봉투입니다. 151-154 페이지의 아이디어를 사용하여이 아이디어를 더욱 확장하여 전체 봉투를 만들 수 있습니다.

Davison, AC 및 Hinkley, DV 1997. 부트 스트랩 방법 및 응용 프로그램. 케임브리지 : Cambridge University Press.

그러나 기본 탐색의 경우 QQ 플롯 배경에서 몇 개의 참조 샘플을 플로팅하면 충분합니다.


좋은 생각! 11 시간 만에 이것을 찬성하게하십시오 ( 만화 에 대한 모든 투표를 사용 했습니다 ) ... 나는 특히 그런 종류의 음모를 풍부하게하는 방법으로 ECDF를 부트 스트랩하는 것을 좋아합니다.
Nick Stauner 2012 년

1
또한 ecdf 플롯에서 신뢰 구간을 그리는 ecdf.ksCI 함수가있는 CRAN 패키지 sfsmisc를 살펴보십시오. 같은 생각이 QQ 플롯에 신뢰
구간

2

KS 테스트는 분포의 특정 매개 변수를 가정합니다. 가설 "데이터가이 특정 분포에 따라 분포되어 있음"을 테스트합니다. 이 매개 변수를 어딘가에 지정했을 수 있습니다. 그렇지 않으면 일치하지 않는 일부 기본값이 사용되었을 수 있습니다. 추정 된 모수가 가설에 연결되면 KS 검정은 보수적입니다.

그러나 대부분 적합도 검정은 잘못된 방식으로 사용됩니다. KS 테스트에서 유의성이 나타나지 않았다고해서 증명하려는 모델이 적합하다는 의미는 아닙니다. 그것이 @Nick Stauner가 너무 작은 샘플 크기에 대해 말한 것입니다. 이 문제는 점 가설 검정 및 동등성 검정과 유사합니다.

결국 : QQ- 플로트 만 고려하십시오.


-1

QQ Plot은 탐색 적 데이터 분석 기술이며 다른 EDA 플롯과 마찬가지로 취급해야합니다. 그들은 당신에게 데이터에 대한 예비 통찰력을 제공하기위한 것입니다. QQ 플롯과 같은 EDA 플롯을 기반으로 분석을 결정하거나 중지해서는 안됩니다. QQ 플롯 만 고려하는 것은 잘못된 조언입니다. KS Test와 같은 정량적 기술을 사용해야합니다. 비슷한 데이터 세트에 대한 또 다른 QQ 플롯이 있다고 가정하면 양적 도구없이 두 가지를 어떻게 비교할 수 있습니까? EDA 및 KS 테스트 후 바로 다음 단계는 KS 테스트가 왜 낮은 p- 값을 제공하는지 알아내는 것입니다 (귀하의 경우 오류가있을 수도 있음).

EDA 기술은 의사 결정 도구로 사용하기위한 것이 아닙니다. 사실, 나는 심지어 추론적인 통계조차도 탐구적인 것으로 만 말하고 싶습니다. 통계 분석을 진행할 방향을 알려줍니다. 예를 들어, 표본에 대한 t- 검정은 표본이 모집단에 속할 수도 있고 그렇지 않을 수도 있다는 신뢰 수준 만 제공하며, 데이터가 속한 분포와 대상에 대한 통찰력을 바탕으로 계속 진행할 수 있습니다. 실제로, 일부 머신 러닝 라이브러리의 일부로 구현 된 기술조차도 본질적으로 탐구적일 ​​때 !!! 나는 그들이 이런 의미에서 그것을 의미하기를 바랍니다 ...!

플롯이나 시각화 기술을 기반으로 통계적 결정을 내리는 것은 통계 과학의 발전을 조롱하는 것입니다. 나에게 묻는다면,이 도표를 정량적 통계 분석을 기반으로 최종 결론을 전달하는 도구로 사용해야합니다.


이것은 내가 자주하고 현명한 것으로 간주하는 것을 금지하고, 탐색적인 음모에 따라 결정을 내리고,보다 공식적인 유의성 테스트 전에 중단합니다. 조롱은 수반되지 않습니다. 이것은 기존의 우수하고 훨씬 미묘한 답변에 유용한 것을 추가하지 않는 반복적이고 독단적 인 의견입니다. 그것은 ... QQ 플롯을 비교하는 것은 매우 간단
닉 콕스에게

나는 다른 답변을 읽지 못했지만 양적 방법을 권장한다면 괜찮습니다. 질문에 대한 답을 주었다. 그러나 궁금한 점이 있습니다. R과 같은 현재 사용 가능한 패키지를 사용하여 공식적인 quant 테스트를 수행하는 데 많은 시간이 걸리지 않습니다 (KS 테스트를 수행하는 데 몇 분 더 소요). 부트 스트랩을 사용하여 R의 KS 테스트 결과를 검증 한 직후에 사용하기에 바람직하지 않은 것으로 언급 된 여러 곳에서 나타났습니다. 전통적인 통계 방법에 대한 일반적인 의혹 때문입니까? 이것은 나의 강력한 comments..not 뒤에 이론적 근거는 어떤 기분을 상하게하는 것입니다
Murugesan Narayanaswamy

게시하기 전에 다른 답변을 읽어야합니다. 게시의 의미는 말할 수있는 다른 내용 (방어 가능한 내용)이 있다는 것입니다. 귀하의 의견은 QQ 도표가 "정량적 방법"이 아님을 암시하는 데 수수께끼입니다. QQ 플롯은 원칙적으로 분포 적합 평가와 관련된 모든 정량적 정보를 보여줍니다. 대조적으로 Kolmogorov-Smirnov와 같은 테스트는 일차원적인 축소를 제공하고 다음에 수행 할 작업에 거의 도움이되지 않습니다.
Nick Cox

QQ 플롯은 이론적 분포를 주어진 테스트 데이터와 비교하고 시각적 표현을 제공하지만 KS 테스트는 통계 개념을 사용하여 훨씬 더 엄격한 방식으로 동일한 작업을 수행하고 최종적으로 확률 값을 제공합니다. 두 QQ 플롯을 비교할 수는 없지만 KS 테스트를 사용할 때 양적 차이가 나타납니다. KS 테스트 p- 값이 잘못되었다는 것은 잘못입니다. 경험적 데이터 세트를 사용하여 분포 모수를 추출 할 수 없다는 것도 잘못입니다. 나는 개인적으로 부트 스트랩을 수행하고 테이블과 수동으로 계산 된 콜 로모 로프 분포를 사용하여 p 값으로 확인했습니다.
Murugesan Narayanaswamy

귀하의 의견에는 많은 섀도 복싱이 있습니다. 누가 경험적 데이터를 사용하여 모수 추정치를 얻을 수 없다고 주장합니까? 이것이 우리 모두가 동의해야 할 일입니다. 토론을하고 싶지 않다는 것을 용서해야합니다. 나는 당신의 대답에 대한 나의 반응을 기다립니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.