QQ 플롯 정량화


10

qq-plot을 사용하면 두 분포가 얼마나 유사한 지 시각화 할 수 있습니다 (예 : 분포와 정규 분포의 유사성을 시각화하지만 두 개의 artibrary 데이터 분포를 비교하는데도 사용). 유사성을 나타내는보다 객관적이고 수치적인 측정 값을 생성하는 통계가 있습니까 (바람직하게는 정규화 된 (0 <= x <= 1) 형식으로)? Gini 계수는 예를 들어 Lorenz 곡선으로 작업 할 때 경제학에서 사용됩니다. QQ-plots를위한 것이 있습니까?

답변:


8

이전 질문에 대한 귀하의 의견에 대한 답변으로 Kolmogorov-Smirnov 테스트를 확인하십시오. 통계적으로 두 누적 분포 함수 사이의 최대 절대 거리 (45Q 선에서 QQ 플롯의 곡선의 최대 절대 거리로 간주 됨)를 통계로 사용합니다. KS 테스트는 ks.test()'stats'라이브러리 의 명령 을 사용하여 R에서 찾을 수 있습니다 . R 사용법에 대한 자세한 정보는 다음과 같습니다.


KS 테스트는 선 분포에 대해 경험적 데이터를 테스트하기위한 것입니다. 두 개의 경험적 분포를 비교하는 데 적합하지 않으며, 경험적 데이터를 매개 변수 값이 추정 된 사전 분포와 비교하는 것도 적합하지 않습니다.
Mike Lawrence

4
@Mike, KS 테스트를 사용하여 경험적으로 파생 된 두 분포를 비교할 수 있습니다. Charlie의 이전 답변과 의견 stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/…
Andy W

@Andy, 아, itl.nist.gov/div898/handbook/eda/section3/eda35g.htm에서 포인트 3을 취하여 두 가지 경험적 CDF를 비교할 수 없다는 결론을 내 렸습니다 .하지만 내 가정은 그렇지 않다는 것을 알았습니다 적당한. 알다시피 감사합니다!
Mike Lawrence

2
그러나 포인트 3은 KS를 사용하여 데이터가 평균 및 sd로 추정 된 정규 분포에서 나온 것인지 테스트 할 수 없음을 의미 합니다 . 이것은 내가 만나는 심리학 학생들에게 인기있는 오류입니다.
Stephan Kolassa

1
(+1)이 답변의 장점은 QS 플롯에서 KS 통계를 직접 읽을 수 있다는 것입니다.
whuber

2

나는 최근에 적합도를 정량화하기 위해 경험적인 CDF와 장착 CDF 사이의 상관 관계를 사용하고,이 방법은 또한 내가 두 경험적 데이터 세트를 비교 이해합니다으로 현재의 경우에 유용 할 수 있을까. 집합간에 서로 다른 수의 관측치가있는 경우 보간이 필요할 수 있습니다.


귀하의 논문은 :) 아주 좋은 수치를 포함
CHL

@chi : ggplot2를 사용하여 모두 R로 작성되었습니다. 환상적인 그래픽 제작 시스템입니다!
Mike Lawrence

CDF가 장착 된 것은 무엇을 의미합니까?
Ampleforth

@Ampleforth, 그 논문에서 나는 경험적 데이터에 분포를 맞추기 때문에 "적합 CDF"는 적합 분포의 이론적 CDF를 의미했다. 죄송합니다. 더 명확하게 알 수 있습니다.
Mike Lawrence

아, 사과하지 마십시오. 내 통계 부족은 다소 크며 여기서 유일한 문제입니다.) 또한 논문을 읽지 않았지만 실제로 좋아하는 그래프를 보았습니다.
Ampleforth

1

두 분포를 비교하는 정식 방법이 카이 제곱 검정이라고 말합니다. 그러나 통계는 정규화되지 않았으며 구간을 선택하는 방법에 따라 다릅니다. 마지막 요점은 물론 버그가 아닌 기능으로 볼 수 있습니다. 빈을 적절하게 선택하면 분포 중간보다 꼬리의 유사성을 더 자세히 볼 수 있습니다.


1

QQ 플롯에서 선형성과의 "친밀 성"을 직접 측정하는 것은 Shapiro-Francia 검정 통계량입니다 (이는 잘 알려진 Shapiro-Wilk와 밀접한 관련이 있으며 간단한 근사치로 간주 될 수 있음).

Shapiro-Francia 통계량은 정렬 된 데이터 값과 예상되는 정상 주문 통계 (때로는 "이론적 Quantile"이라고 표시됨) 사이의 제곱 상관 관계입니다. 즉, 플롯에서 볼 수있는 상관의 제곱이어야합니다. 요약 측정.

(Shapiro-Wilk는 비슷하지만 주문 통계 간의 상관 관계를 고려합니다. Shapiro-Francia와 비슷한 해석이 있으며 QQ 플롯의 요약과 거의 비슷합니다.)

어느 쪽이든, QQ 플롯이 보여주는 것의 단일 숫자 요약의 경우, 그 중 하나가 플롯을 요약하는 적절한 방법이 될 수 있습니다.

1'

[때로는 곱하면 ( 는 정규 표본을 추출하면 이 작아지는 경향이 있습니다 ). 정상적인 평균 또는 중앙값에서 샘플링에서 로서 비교적 안정한 경향 변한다. 에 의한 곱셈 은 여전히 ​​옳지 않지만, 부분적으로 과도하게 수정됩니다-결과 는 과 사이 에서 만큼 증가 하지만 값의 종류에 비해이 변동은 적습니다 정규 성과는 실질적으로 차이가 나는 경향이 있습니다. 분포가 크게 변하지 않는 규모에1')(1')로그()로그()변형 된 p- 값과 비슷하게 만듭니다 ( 비정규 의 을 측정하는 데는 덜 유용합니다 . 단순한 변형이 아니라 판단과 같은 것에 관심이있는 경우 더 유용합니다).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.