파이썬의 QQ 플롯


11

다음 코드를 사용하여 qq 플롯을 생성했습니다. qq 플롯은 데이터가 정상적으로 분포되어 있는지 여부를 확인하는 데 사용됩니다. 내 질문은 x 및 y 축 레이블이 qq 플롯에서 무엇을 나타내며 r 제곱 값을 나타내는 것은 무엇입니까 ??

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

여기에 이미지 설명을 입력하십시오

나는 이미 qq plot 에 대한 토론이 있다는 것을 알고 있지만 그 토론을 통해도 개념을 이해할 수 없었습니다.


4
이것은 연결된 스레드의 복제본에 매우 가깝습니다. 파이썬 대 R은 여기서 중요한 차이점은 아니지만 측면은 새로운 것입니다. 질문과 답변이 중복을 피하기 위해 해당 측면에 조금 더 초점을 맞추는 것이 좋습니다. (나는 여부를 궁금해 열악한 적합하는 QQ 플롯 수단에 불가피 년대 위쪽으로 경사에 대해 우리가 기대 때문에,있는 오해하는 경향이 0보다 다소 큰. 그래서 값을 회귀 꽤 인상적 수 있습니다 그 분석은 여기에서 그리 인상적이지 않을 수 있습니다.)R 2 R 2R2R2R2
Silverfish

@Silverfish 나는 에 집중하는 것이 도움이되지 않을 가치가 있다고 생각하지 않았다 . QQ 플롯은 일반적으로 무수한 값 의 테이블로보고되지 않고 나타납니다 . 시각화가있는 한 왜 단일 숫자로 축소합니까? QQ 플롯이 "나쁜"것으로 보이지만 가 "좋은"것으로 보인다면 여전히 정상이라고 주장합니까? 가장 좋은 패키지는 이러한 이유로 정확하게 를 제공하지도 않습니다 . 이 viz-vsus-moment 논쟁은 귀여운 이름 : Anscombe 's quartet 입니다. R 2 R 2 R 2R2R2R2R2
Mike Williamson

@ MikeWilliamson 나는 가 특히 유용하지 않다는 데 동의한다 (이것은 내 요점의 일부 였지만, 나는 그것을 잘 표현하지 못했다). 내 주요 요점은 질문이 이미 지적 했듯이 "QQ 플롯을 해석하는 방법"이 여기서 오랫동안 논의되었다는 것입니다. 이 스레드가 중복으로 닫혀서는 안되는 유일한 이유는 에 대한 쿼리 이므로 실제로 유용하지 않다고 말할지라도 여기에 대한 답변에서 논의되어야합니다.R 2R2R2
Silverfish

QQ 플롯을 플롯 하시겠습니까? help(probplot)states : probplotQQ 또는 PP 플롯과 혼동해서는 안되는 확률도를 생성합니다.
abukaj

답변:


10

Macond의 대답은 정확하지만 원래 게시물에서 말을 조금 단순화하는 것이 도움이 될 것이라고 생각했습니다.

QQ 플롯은 "quantile-quantile plot"을 나타 냅니다.

이는 정규 분포 (또는 가우시안) 분포를 직선으로 나타 내기 위해 축이 의도적으로 변형 된 플롯 입니다. 다시 말해, 완전 정규 분포는 기울기 = 1이고 절편 = 0 인 선을 정확히 따릅니다.

따라서 플롯이 대략 직선이 아닌 경우 기본 분포는 정상이 아닙니다. 구부러지면 예를 들어 예상보다 많은 "높은 전단지"값이 있습니다. (링크는 더 많은 예를 제공합니다.)


  1. x & y 레이블은 무엇을 나타 냅니까?

이론적 분위수는 x 축을 따라 배치된다. 즉, x 축은 데이터아니며, 데이터 가 정상이라면 데이터의 위치를 ​​예상하는 것입니다.

실제 데이터 y 축을 따라 도시된다.

값은 평균과의 표준 편차입니다. 따라서 0데이터의 평균은 1위의 1 표준 편차 등입니다. 예를 들어 68.27%정규 분포가있는 경우 모든 데이터의 평균은 -1과 1 사이 여야합니다.

  1. 뭐라고합니까 값의 평균은?R2

값은 플롯이 종류의 특히 유용하지 않다. 는 일반적으로 한 변수가 다른 변수에 종속 되는지 여부를 확인하는 데 사용됩니다 . 글쎄, 당신은 이론적 가치와 실제 가치를 비교하고 있습니다. 그래서 반드시있을 것입니다 어떤 종류의 . (예를 들어, 임의의 균일 분포도 중간 정도의 갖습니다 .)R 2 R 2 R 2R2R2R2R2


마지막으로, pp plot 이라고하는 거의 사용되지 않는 비슷한 플롯이 있습니다. 이 플롯은 극단적 인 데이터 대신 대량 의 데이터가있는 위치에 초점을 맞추려는 경우에 더 유용합니다 .


1
단어 기울어는 여기에 최선의 선택되지 않습니다 : 내가 말하고 싶지만 변형 .
Nick Cox

좋은 설명입니다. x 축 (예상 값)이 어떻게 생성되는지 설명해 주시겠습니까?
Vivek Ananthan

1

Y 축은 관측 된 분포 값과 X 축, 이론적 분포 값을 보여줍니다.

각 점은 Quantile입니다. 플롯에 100 개의 점이있는 경우 첫 번째 점 (왼쪽 아래에있는 점)은 구간의 상한을 나타내며 가장 작은 것에서 가장 큰 것으로 정렬 할 때 해당 분포는이 간격으로 유지됩니다. 마찬가지로 두 번째 점은 구간의 데이터 점 중 최소 2 %가 위치한 구간의 상한입니다. 이것은 Quantile의 개념입니다. 그러나 100 간격의 경우로 제한되지 않으며 일반적인 개념이며 가능한 많은 간격을 가질 수 있으며 간격의 경계를 설명하는 많은 Quantile이 있습니다.

이 그림에서 특별한 점은 각 점의 위치가 두 분포에서 주어진 Quantile의 실제 값을 축의 해당 값으로 결정한다는 것입니다. 100 개의 이러한 점 (사 분위수)이 다시있는 것처럼 생각하면,이 그림은 관측 된 분포에서 얻은 데이터 포인트의 최소 1 %가 ( , -3.5) 사이이고 이론적 분포에서 얻은 데이터 포인트의 최소 1 %가 사이에 있음을 나타냅니다. ( , -3.2].이 방법으로 두 분포에서 각 구간 경계의 위치를 ​​볼 수 있습니다.

나는 정렬 된 데이터 포인트 등과 같이 답변 전반에 걸쳐 데이터 포인트를 사용했습니다. 이것은 불연속 분포를 의미하지만 개념은 연속 분포에 대해 일반화 될 수 있습니다.

R 2R2 는 점이 빨간색 선에 얼마나 잘 맞는지 측정 한 것입니다. 두 축의 분포가 모두 같으면 모든 점이 정확히 선에 있고 는 1이됩니다. 선형 회귀를 설명하는 모든 텍스트에서이 점에 대해 자세히 알아볼 수 있습니다.R2


3
그러나 선형 회귀에 대한 텍스트 는 점이 QQ 플롯의 점만큼 심각하게 제한 될 때 를 해석하는 방법을 설명하지 않습니다 ! 특히, QQ 플롯의 포인트는 단조 감소하지 않아야합니다. 이로 인해 는 무엇이든 상관없이 엄청나게 높아집니다. R 2R2R2
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.