어느 쪽을 믿어야합니까? 그래픽 출력 또는 KS 테스트 결과?
어느 쪽을 믿어야합니까? 그래픽 출력 또는 KS 테스트 결과?
답변:
나는 QQ 플롯을 "믿지"않는다는 의미가 없습니다 (적절하게 제작 한 경우). 정의 분포와 병치 된 데이터의 현실을 그래픽으로 표현한 것입니다. 분명히 완벽하게 일치하는 것은 아니지만 목적에 충분하면 스토리의 끝이 될 수 있습니다. 이 관련 질문을 확인하고 싶을 수도 있습니다 : 정규성 테스트가 '필수적으로 쓸모 없는가?
의도 한 목적으로 데이터가 감마 분포와 너무 다른지 여부는 또 다른 질문입니다. KS 테스트만으로는 답을 얻을 수 없습니다 (결과는 샘플 크기에 따라 다르기 때문에). 그러나 QQ 플롯은 결정에 도움이 될 수 있습니다. 또한 실행하려는 다른 분석에 대한 강력한 대안을 찾고 싶을 수 있으며, 이후 분석의 감마 분포 편차에 대한 민감도를 염두에 두어야하는 경우 시뮬레이션 테스트도 고려해야합니다. .
당신이 할 수있는 것은 이론적 분포에서 여러 샘플을 만들고 QQ 플롯의 배경에 샘플을 플로팅하는 것입니다. 그러면 샘플링만으로 어떤 종류의 변동성을 합리적으로 기대할 수 있는지 알 수 있습니다.
86-89 페이지의 예제를 사용하여 이론적 선 주위에 봉투를 만들도록이 아이디어를 확장 할 수 있습니다.
Venables, WN and Ripley, BD 2002. S. New York : Springer에 대한 최신 통계 적용.
이것은 포인트 단위의 봉투입니다. 151-154 페이지의 아이디어를 사용하여이 아이디어를 더욱 확장하여 전체 봉투를 만들 수 있습니다.
Davison, AC 및 Hinkley, DV 1997. 부트 스트랩 방법 및 응용 프로그램. 케임브리지 : Cambridge University Press.
그러나 기본 탐색의 경우 QQ 플롯 배경에서 몇 개의 참조 샘플을 플로팅하면 충분합니다.
KS 테스트는 분포의 특정 매개 변수를 가정합니다. 가설 "데이터가이 특정 분포에 따라 분포되어 있음"을 테스트합니다. 이 매개 변수를 어딘가에 지정했을 수 있습니다. 그렇지 않으면 일치하지 않는 일부 기본값이 사용되었을 수 있습니다. 추정 된 모수가 가설에 연결되면 KS 검정은 보수적입니다.
그러나 대부분 적합도 검정은 잘못된 방식으로 사용됩니다. KS 테스트에서 유의성이 나타나지 않았다고해서 증명하려는 모델이 적합하다는 의미는 아닙니다. 그것이 @Nick Stauner가 너무 작은 샘플 크기에 대해 말한 것입니다. 이 문제는 점 가설 검정 및 동등성 검정과 유사합니다.
결국 : QQ- 플로트 만 고려하십시오.
QQ Plot은 탐색 적 데이터 분석 기술이며 다른 EDA 플롯과 마찬가지로 취급해야합니다. 그들은 당신에게 데이터에 대한 예비 통찰력을 제공하기위한 것입니다. QQ 플롯과 같은 EDA 플롯을 기반으로 분석을 결정하거나 중지해서는 안됩니다. QQ 플롯 만 고려하는 것은 잘못된 조언입니다. KS Test와 같은 정량적 기술을 사용해야합니다. 비슷한 데이터 세트에 대한 또 다른 QQ 플롯이 있다고 가정하면 양적 도구없이 두 가지를 어떻게 비교할 수 있습니까? EDA 및 KS 테스트 후 바로 다음 단계는 KS 테스트가 왜 낮은 p- 값을 제공하는지 알아내는 것입니다 (귀하의 경우 오류가있을 수도 있음).
EDA 기술은 의사 결정 도구로 사용하기위한 것이 아닙니다. 사실, 나는 심지어 추론적인 통계조차도 탐구적인 것으로 만 말하고 싶습니다. 통계 분석을 진행할 방향을 알려줍니다. 예를 들어, 표본에 대한 t- 검정은 표본이 모집단에 속할 수도 있고 그렇지 않을 수도 있다는 신뢰 수준 만 제공하며, 데이터가 속한 분포와 대상에 대한 통찰력을 바탕으로 계속 진행할 수 있습니다. 실제로, 일부 머신 러닝 라이브러리의 일부로 구현 된 기술조차도 본질적으로 탐구적일 때 !!! 나는 그들이 이런 의미에서 그것을 의미하기를 바랍니다 ...!
플롯이나 시각화 기술을 기반으로 통계적 결정을 내리는 것은 통계 과학의 발전을 조롱하는 것입니다. 나에게 묻는다면,이 도표를 정량적 통계 분석을 기반으로 최종 결론을 전달하는 도구로 사용해야합니다.