PP- 플로트 vs. QQ- 플롯


39

데이터에 대한 적합 분포를 분석하려고 할 때 확률도, PP- 플로트 및 QQ- 플로트의 차이점은 무엇입니까?


4
Wikipedia 가이 문제를 도울 수있는 것 같습니다 : 확률도 . QQ 플롯 , PP 플롯 . 보다 구체적인 질문이 있으시면 명확히하십시오!
vector07

감사합니다. PP 플롯과 확률도를 혼란스럽게 생각합니다!
kay

답변:


41

vector07를 @로 노트 , 확률 플롯은 PP-플롯과 QQ-플롯은 구성원있는 더 추상적 인 범주이다. 따라서 후자 두 가지의 차이점에 대해 설명하겠습니다. 차이점을 이해하는 가장 좋은 방법은 차이점을 구성하는 방법에 대해 생각하고 분포의 Quantile과 주어진 Quantile에 도달했을 때 통과 한 분포의 비율 간의 차이를 인식해야한다는 것을 이해하는 것입니다. 분포누적 분포 함수 (CDF)를 플로팅하여 이러한 관계를 확인할 수 있습니다 . 예를 들어 표준 정규 분포를 고려하십시오.

여기에 이미지 설명을 입력하십시오

y 축의 약 68 % (빨간색 선 사이의 영역)는 x 축의 1/3 (파란색 선 사이의 영역)에 해당합니다. 이는 우리가 두 분포 사이의 일치를 평가하기 위해 통과 한 분포의 비율을 사용할 때 (즉, pp- 플롯을 사용하는 경우) 분포 중심에서 많은 해결 방법을 얻을 수 있음을 의미합니다. 꼬리. 반면, Quantile을 사용하여 두 분포 사이의 일치를 평가할 때 (즉, qq-plot을 사용하면) 꼬리에서 매우 좋은 해상도를 얻을 수 있지만 중심에서는 더 적습니다. (데이터 분석가는 일반적으로 분포의 꼬리에 더 관심이 있기 때문에 추론에 더 많은 영향을 줄 수 있습니다. 예를 들어 qq-plots는 pp-plots보다 훨씬 일반적입니다.)

이러한 사실을 실제로 살펴보기 위해 pp-plot과 qq-plot의 구성을 살펴 보겠습니다. (나는 또한 qq-plot의 구성을 구두로 / 더 느리게 여기에서 걷는다 : QQ-plot은 histogram과 일치하지 않습니다 .) R을 사용하는지 모르겠지만 자발적으로 설명 할 것입니다.

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

여기에 이미지 설명을 입력하십시오

불행히도, 이러한 도표는 데이터가 적고 정확한 정규 분포와 정확한 이론 분포를 비교하기 때문에 그리 뚜렷하지 않습니다. 따라서 분포의 중심이나 꼬리에서 볼 수있는 특별한 것이 없습니다. 이러한 차이점을 더 잘 설명하기 위해 자유도가 4 인 (꼬리 꼬리) t- 분포와 아래의 이중 모드 분포를 플로팅합니다. qq- 플롯에서 팻 테일은 훨씬 더 뚜렷한 반면, pp- 플롯에서는 이양성이 더 두드러집니다.

여기에 이미지 설명을 입력하십시오 여기에 이미지 설명을 입력하십시오


14
@AleksandrH 우리는 학생들에게 관심을 가져 주셔서 감사합니다. 이 사이트가 통계를 처음 접하는 학생들만을위한 것이라는 암시적인 가정은 맞지 않습니다. 이 사이트의 많은 "단어"답변이 증명 하듯이 "단어 답변"이 학생들에게 부적절하다는 사실에 동의하지 마십시오. 불만을 표현하는보다 건설적인 방법은 예를 들면 다음과 같습니다. 신입생의 요구를 충족시키기위한 표준을 충족하는 답변을 여기에 게시하여 응답을 개선하는 방법을 보여주고 귀하를 모방하도록 격려합니다.
whuber

12

다음은 v8doc.sas.com 의 정의입니다 .

PP 그림은 데이터 집합의 경험적 누적 분포 함수를 지정된 이론적 누적 분포 함수 F (·)와 비교합니다. QQ 그림은 데이터 분포의 Quantile을 지정된 분포 제품군의 표준화 된 이론적 분포의 Quantile과 비교합니다.

본문에서 그들은 또한 언급한다 :

  • PP 도표와 QQ 도표가 구성되고 해석되는 방식에 관한 차이점.
  • 경험적 분포와 이론적 분포를 비교할 때 서로를 사용하는 것의 장점.

참고 :

SAS Institute Inc., SAS OnlineDoc®, 버전 8, 캐리, NC : SAS Institute Inc., 1999

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.