QQ 플롯이 히스토그램과 일치하지 않습니다


12

히스토그램, 커널 밀도 및 재정 로그 수익률의 정규 분포가 손실로 바뀌고 (표지가 변경됨) 이러한 데이터의 일반적인 QQ 플롯이 있습니다.

http://tinypic.com/r/34ocwvr/6

QQ 플롯은 꼬리가 올바르게 장착되지 않았 음을 명확하게 보여줍니다. 그러나 히스토그램과 적합 정규 분포 (파란색)를 보면 0.0 정도의 값도 올바르게 피팅되지 않습니다. 따라서 QQ 플롯은 꼬리 만 제대로 적합하지 않지만 전체 분포가 올바르게 적합하지 않음을 보여줍니다. 이것이 QQ 플롯에 나타나지 않는 이유는 무엇입니까?


10
왼쪽의 파란색 곡선은 오른쪽의 "가장 적합"한 가상 선에 해당합니다. 오른쪽의 선은 가장 적합한 선 이 아닙니다 . 분포 의 중간 값에 가장 적합한 선 입니다. 전체가 아닌 히스토그램의 중간 3 분의 2 정도에 "벨 커브"를 맞추는 경우, 그 커브는 피크와 가파른 경사면을 따라 가까워 지지만 멀어 질 것입니다. 어깨와 꼬리가 너무 낮습니다. 그것이 바로 qq 플롯의 라인이 보여주는 것입니다. 이러한 플롯은 완전히 일치합니다. 그것은 맞는 것 입니다.
whuber

답변:


11

+1에서 @NickSabbe로, '줄거리는 단지 "뭔가 잘못되었다"고 알려주는데, 이는 종종 qq-lot을 사용하는 가장 좋은 방법입니다 (해석 방법을 이해하기 어려울 수 있음). 그러나 qq-plot을 만드는 방법에 대해 생각함으로써 qq-plot을 해석하는 방법을 배울 수 있습니다.

데이터를 정렬하여 시작한 다음 각 값을 같은 백분율로 사용하는 최소값에서 계산합니다. 예를 들어 20 개의 데이터 포인트가있는 경우 첫 번째 포인트 (최소)를 계산할 때 '내 데이터의 5 %를 계산했습니다'라고 스스로에게 말하게됩니다. 끝날 때까지이 절차를 수행하면 100 %의 데이터를 통과하게됩니다. 이 백분율 값은 해당 이론적 법선 (즉, 평균과 SD가 같은 법선)의 동일한 백분율 값과 비교할 수 있습니다.

이 그림을 그릴 때, 이론적 법칙의 100 %를 통과하면 무한대에 있기 때문에 마지막 값 (100 %)에 문제가 있음을 알게 될 것입니다. 이 문제는 백분율을 계산하기 전에 데이터의 각 지점에서 분모에 작은 상수를 추가하여 처리됩니다. 일반적인 값은 분모에 1을 더하는 것입니다. 예를 들어 첫 번째 (20 개) 데이터 포인트 1 / (20 + 1) = 5 %를 호출하고 마지막을 20 / (20 + 1) = 95 %로 지정합니다. 이제 이러한 이론적 법선에 대해 이러한 점을 플롯하면 pp- 플롯이 생깁니다(확률에 대한 확률을 플로팅하기 위해). 이러한 그림은 분포와 분포 중심의 법선 사이의 편차를 나타냅니다. 이는 정규 분포의 68 %가 +/- 1 SD 내에 있기 때문에 pp-plots는 해상도가 뛰어나고 다른 곳에서는 해상도가 낮기 때문입니다. (이 시점에 대한 자세한 내용은 PP-plots vs. QQ-plots 에서 내 대답을 읽는 데 도움이 될 수 있습니다 .)

종종 우리는 배포의 꼬리에서 일어나는 일에 대해 가장 우려하고 있습니다. 더 나은 해상도를 얻을 수 있다 (그리고 중간에 따라서 더 해상도), 우리는 구성 할 수 있습니다 전분기 플롯을 대신. 우리는 확률 집합을 가지고 정규 분포 CDF의 역수를 통해 그것들을 전달함으로써 이것을합니다. 점수). 이 연산의 결과는 두 세트의 Quantile 이며, 서로 유사하게 그려 질 수 있습니다.

@whuber는 기준선이 점의 중간 50 %를 통해 (즉, 1 사분 위에서 3 사분까지) 최적 피팅 선을 찾음으로써 나중에 (일반적으로) 그려지는 것이 옳습니다. 이것은 플롯을 더 읽기 쉽게하기 위해 수행됩니다. 이 선을 사용하면 꼬리로 이동할 때 분포의 Quantile이 실제 법선에서 점진적으로 분기되는지 여부를 나타내는 것으로 해석 할 수 있습니다. (중심에서 더 멀리 떨어진 지점의 위치는 더 가까이있는 지점과는 독립적이지 않으므로 특정 히스토그램에서 '숄더'가 다른 후에 꼬리가 함께 나타나는 것처럼 Quantiles를 의미하지는 않습니다. 이제 다시 동일합니다.)

주어진 플롯 포인트에 대해 축에서 읽은 값을 비교하여 qq 플롯을 분석적으로 해석 할 수 있습니다. 데이터가 정규 분포로 잘 설명 되었다면 값은 거의 같아야합니다. 예를 들어, 아주 멀리 왼쪽 하단 모서리에있는 극단적 인 지점을 : 그 값은 어딘가에 과거이다 ,하지만 값은 약간의 과거입니다 그것은 수 '해야한다'보다 훨씬 더 멀리가 그래서. 일반적으로 qq-plot을 해석하는 간단한 루 브릭은 주어진 꼬리가 기준선에서 시계 반대 방향으로 비틀어지면 분포의 꼬리에 이론적 인 법선보다 더 많은 데이터가 있고 꼬리가 시계 방향으로 비틀리는 경우 인 이하x3y.2이론적 정상보다 분포의 꼬리에있는 데이터. 다시 말해:

  • 두 꼬리가 시계 반대 방향으로 비틀면 꼬리가 짙은 경우 ( 렙 토커 토 시스 )
  • 두 꼬리가 시계 방향으로 비틀어지면 꼬리가 옅은 것입니다 (platykurtosis).
  • 오른쪽 꼬리가 시계 반대 방향으로 꼬이고 왼쪽 꼬리가 시계 방향으로 꼬이면 오른쪽으로 치우친 것입니다
  • 왼쪽 꼬리가 시계 반대 방향으로 꼬이고 오른쪽 꼬리가 시계 방향으로 꼬인 경우 왼쪽으로 치우친 것입니다

그런 루 브릭은 만족스럽지 않습니다. 하나는 음모의 배후에있는 원리와 직접적인 관련이 없다는 것입니다. 그것들은 따로 기억해야하며 (메모리 결함으로 인해 완전히 혼동 될 수 있습니다). 또 다른 경우 (이 경우)는 너무 복잡하여 안정적으로 유용하지 않다는 것입니다. 또 다른 방법은 이러한 도표를 작성하는 방법에 대한 표준화가 없기 때문에 다른 절차로 작성된 qq 도표에 적용될 때이 방법이 잘못 될 수 있다는 것입니다. 그러나 qq 플롯은 해석하기 쉽습니다 . quantdec.com/envstats/notes/class_03/probability.htm의 중간에있는 설명에서 내 시도를 참조하십시오 .
whuber

5

간단히 말해 : QQ- 플롯은 예상 분포와 비교 한 경험적 분포의 순위를 보여줍니다. 귀하의 경우 (그리고 실제로는 종종 그렇습니다. 항상 대칭 분포를 갖는 경우), 중간 부근의 순위는 예상과 경험적 사이에서 유사하므로 QQ 플롯은 그 선에 가깝습니다.

QQ- 플롯에서 해당 위치를 기준으로 "이상한"관측 값을 실제로 식별하는 것은 그리 간단하지 않습니다. 플롯은 단지 "뭔가 잘못되었다"고 알려주며, 데이터 / 분포에 대해 더 많이 알고 있다면 문제가있는 곳.


1
나는 그 반대의 결론을 유지하겠다. Nick : qq 플롯은 데이터 본문과 비교하여 "이상한"결과를 훨씬 쉽게 식별하고 평가할 수있는 반면, 히스토그램은 qq 플롯이 나타내는 것을 많이 모호하게하는 경향이있다. 여기서 문제는 qq 플롯이 라인에 가까운 지 여부가 아닙니다. 플롯에 대한 참조로 소프트웨어가 선택한 라인과 관련이 있습니다! (나는 R사 분위수와 같은 적당한 백분위 수에 적합하다고 생각하지만, 막대 그래프에 대한 적합은 일치하는 모멘트에 기초한 것 같습니다.)
whuber

1
@ whuber : 개인적으로 가능한 경우 두 가지 모두를보고 싶습니다 (주로 QQ 플롯보다 히스토그램을 쉽게 읽었 기 때문에). 하지만 당신 말이 맞아요
Nick Sabbe

그리고 당신은 두 기술이 상호 보완 적이라는 것이 옳습니다. 예를 들어, 바이 모달리티는 qq 플롯보다 히스토그램에서 더 쉽게 탐지 (및 정량화)하는 경향이 있습니다. 연습을 통해 히스토그램과 qq 플롯을 쉽게 읽을 수 있다고 생각합니다. QQ 플롯은 표준 프레젠테이션 형식이 없기 때문에 학습하는 데 시간이 조금 더 걸릴 수 있습니다. 항상 어느 축이 값이고 어느 Quantile인지, 때로는 Quantile이 "동일한 값"으로 변환되는 것을 확인해야합니다. 표준화되고 있음).
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.