QQ 라인의 신뢰 대역

이 질문은 구체적으로 관련이 R없지만 R설명 하기 위해 사용 하기로 선택 했습니다.

(일반) qq- 라인에서 신뢰 대역을 생성하는 코드를 고려하십시오.

library(car)
library(MASS)
b0<-lm(deaths~.,data=road)
qqPlot(b0$resid,pch=16,line="robust")

이 신뢰 대역이 어떻게 구성되어 있는지에 대한 설명 (또는 대안 문서 / 온라인 문서 링크)을 찾고 있습니다 (R의 도움말 파일에서 Fox 2002에 대한 참조를 보았지만 슬프게도 이것을 가지고 있지 않습니다 책 편리).

내 질문은 예를 들어 더 정확하게 만들어 질 것입니다. R이 특정 CI를 계산 하는 방법 은 다음 과 같습니다 (에서 사용 된 코드를 단축 / 단순화했습니다 car::qqPlot)

x<-b0$resid
good<-!is.na(x)
ord<-order(x[good])
ord.x<-x[good][ord]
n<-length(ord.x)
P<-ppoints(n)
z<-qnorm(P)
plot(z,ord.x,type="n")
coef<-coef(rlm(ord.x~z))
a<-coef[1]
b<-coef[2]
abline(a,b,col="red",lwd=2)
conf<-0.95
zz<-qnorm(1-(1-conf)/2)
SE<-(b/dnorm(z))*sqrt(P*(1-P)/n)     #[WHY?]
fit.value<-a+b*z
upper<-fit.value+zz*SE
lower<-fit.value-zz*SE
lines(z,upper,lty=2,lwd=2,col="red")
lines(z,lower,lty=2,lwd=2,col="red")

문제는 이러한 SE를 계산하는 데 사용 된 공식 (예 : line SE<-(b/dnorm(z))*sqrt(P*(1-P)/n)) 의 정당성이 무엇인가입니다 .

FWIW이 공식은 선형 회귀에 사용되는 일반적인 신뢰 대역 의 공식과 매우 다릅니다

confidence-interval linear-model qq-plot

— 사용자 603
소스

나는 그것이 주문 통계의 분포 와 관련 이 있다고 기대한다

, 특히점근 결과:

{에프}_{{엑스}_{(케이)}} (엑스) = \frac{엔!}{(케이 - 1)! (엔 - 케이)!} [{에프}_{엑스} (엑스)]^{케이 - 1} [1 - {에프}_{엑스} (엑스)]^{엔 - 케이} {에프}_{엑스} (엑스)

$f_{X_{(k)}}(x) =\frac{n!}{(k-1)!(n-k)!}[F_X(x)]^{k-1}[1-F_X(x)]^{n-k} f_X(x)$

X_{(⌈ n p ⌉)} \sim A N (F^{- 1} (p), \frac{p (1 - p)}{n [f (F^{- 1} (p))]^{2}})

$X_{(\lceil np \rceil)} \sim AN\left(F^{-1}(p),\frac{p(1-p)}{n[f(F^{-1}(p))]^2}\right)$

— Glen_b-복지국 Monica

@Glen_b가 맞습니다. 존 폭스는 35-36 페이지에 기록한다 : "주문 통계의 표준 오차

인

X_{(i)}

$X_{(i)}$

S E (X_{(i)}) = \frac{\hat{σ}}{p (z_{i})} \sqrt{\frac{P_{i} (1 - P_{i})}{n}}

$\mathrm{SE}(X_{(i)})=\frac{\hat{\sigma}}{p(z_i)}\sqrt{\frac{P_i(1-P_i)}{n}}$

p (z)

$p(z)$

P (z)

$P(z)$

{\hat{X}}_{(i)} = \hat{μ} + \hat{σ} z_{i}

$\widehat{X}_{(i)}=\hat{\mu}+\hat{\sigma}z_{i}$

{\hat{X}}_{(i)} \pm 2 \times S E (X_{(i)})

$\widehat{X}_{(i)}\pm 2\times \mathrm{SE}(X_{(i)})$

나는 남아있는 유일한 것은 라고 생각한다.

f (F^{- 1} (p))

$f(F^{-1}(p))$

(p (z_{i}) / \hat{σ})

$(p(z_i)/\hat{\sigma})$

주문 통계 분포 와 관련 이 있습니다.

{에프}_{{엑스}_{(케이)}} (엑스) = \frac{엔!}{(케이 - 1)! (엔 - 케이)!} [{에프}_{엑스} (엑스)]^{케이 - 1} [1 - {에프}_{엑스} (엑스)]^{엔 - 케이} {에프}_{엑스} (엑스)

$f_{X_{(k)}}(x) =\frac{n!}{(k-1)!(n-k)!}[F_X(x)]^{k-1}[1-F_X(x)]^{n-k} f_X(x)$ 더 구체적 으로 점근 적 결과 :

{엑스}_{(⌈ 엔 피 ⌉)} \sim ㅏ 엔 ({에프}^{- 1} (피), \frac{피 (1 - 피)}{엔 [에프 ({에프}^{- 1} (피))]^{2}})

$X_{(\lceil np \rceil)} \sim AN\left(F^{-1}(p),\frac{p(1-p)}{n[f(F^{-1}(p))]^2}\right)$

As COOLSerdash mentions in comments, John Fox [1] writes on pages 35-36:

The standard error of the order statistic $X_{(i)}$ is
$S E (X_{(i)}) = \frac{\hat{σ}}{p (z_{i})} \sqrt{\frac{P_{i} (1 - P_{i})}{n}}$ $\mathrm{SE}(X_{(i)})=\frac{\hat{\sigma}}{p(z_i)}\sqrt{\frac{P_i(1-P_i)}{n}}$ where $p(z)$ is the probability density function corresponding to the CDF $P(z)$ . The values along the fitted line are given by $\widehat{X}_{(i)}=\hat{\mu}+\hat{\sigma}z_{i}$ . An approximate 95% confidence "envelope" around the fitted line is, therefore, $\widehat{X}_{(i)}\pm 2\times \mathrm{SE}(X_{(i)})$ .

Then we just need to recognize that $f(F^{-1}(p))$ is estimated by $(p(z_i)/\hat{\sigma})$ .

[1] Fox, J. (2008),
Applied Regression Analysis and Generalized Linear Models, 2nd Ed.,
Sage Publications, Inc

— Glen_b -Reinstate Monica
소스