Quantile 회귀 분석에서 R 제곱


21

Quantile Regression을 사용하여 데이터의 90 번째 백분위 수 예측 변수를 찾습니다. quantreg패키지를 사용하여 R 에서이 작업을 수행하고 있습니다. 예측 변수에 의해 설명되는 변동의 정도를 나타내는 Quantile regression에 대한 를 어떻게 확인할 수 있습니까?r2

내가 정말로 알고 싶은 것 : "얼마나 많은 변동성을 설명 할 수있는 방법이 있습니까?" P 값에 의한 유의 수준은 다음 명령의 출력에서 ​​사용할 수 있습니다 summary(rq(formula,tau,data)). 적합도를 얻으려면 어떻게해야합니까?


7
R2 는 Quantile 회귀와 관련이 없습니다.
whuber

@ whuber : 얼마나 많은 가변성이 설명되고 있는지 알기 위해 다른 방법을 사용할 수 있습니까?
rnso

2
그것은 의견에 묻히기보다는 질문의 본문에 묻는 것이 좋습니다! "편의 설명"(어쨌든 분산의 관점에서 측정)은 본질적으로 최소 제곱 개념입니다. 아마도 당신이 원하는 것은 통계적 유의성 또는 적합도에 대한 적절한 척도입니다.
whuber

어떤 장점을 위해서는 성능이 좋을지, 성능이 떨어질지, 관련이 없는지 고려해야합니다. 예를 들어, 90 번째 백분위 수가 10 번째 백분위 수를 예측하기 어렵다는 비판은 없습니다. Quantile 회귀 분석을 사용하지 않은 경우 벤치 마크를 사용할 수 있습니다. 예측 변수가 연속적이면 정의하기가 어려울 수 있습니다.
Nick Cox

1
@ whuber : 질문의 본문에 추가했습니다. P 값에 의한 유의 수준은 요약 (rq (formula, tau, data)) 출력에서 ​​사용할 수 있습니다. 적합도를 얻으려면 어떻게해야합니까?
rnso

답변:


23

Koenker와 Machado 는 특정 ( ) Quantile 에 대한 적합도의 지역 측정치 인 설명 합니다. R 1 τ[1]R1τ

하자V(τ)=minbρτ(yixib)

하자 과 전체 모델 및 제한된 모델에 대한 계수 추정치, 그리고하자 와 수 해당 항. ~ β (τ) V ~ V Vβ^(τ)β~(τ)V^V~V

적합도 기준 합니다.R1(τ)=1V^V~

Koenker는 여기 에 코드를 제공합니다 .V

rho <- function(u,tau=.5)u*(tau - (u < 0))
V <- sum(rho(f$resid, f$tau))

따라서 인터셉트 전용 ( -또는 아래 코드 스 니펫)이 있는 모델에 대해 를 계산 한 다음 무제한 모델 ( )을 계산하면 적어도 개념적으로- 다소 일반적인 와 같습니다 .~ V V R 2VV~V0V^R1 <- 1-Vhat/V0R2

편집 : 물론, 두 번째 f$tau코드 행의 호출 위치에 넣을 두 번째 인수 는 tau사용 된 값 중 어느 것이 든지됩니다. 첫 번째 줄의 값은 단순히 기본값을 설정합니다.

'평균에 대한 분산을 설명하는 것'은 실제로 양자 회귀 분석을 수행하는 것이 아니므로 실제로 동등한 척도를 기 대해서는 안됩니다.

나는 의 개념이 회귀를 양자화하는 것으로 잘 해석 되지 않는다고 생각합니다 . 여기에서와 같이 다양한 유사 수량을 정의 할 수 있지만, 무엇을 선택하더라도 실제 가 OLS 회귀 분석에 갖는 대부분의 속성을 갖지는 않습니다 . 필요한 속성과 필요하지 않은 속성에 대해 명확해야합니다. 경우에 따라 원하는 것을 수행하는 측정 값을 가질 수도 있습니다.R 2R2R2

-

[1] Koenker, R 및 Machado, J (1999),
Quantile Regression에 대한 적합도 및 관련 추론 프로세스,
Journal of the American Statistical Association, 94 : 448, 1296-1310


tau = 0.9는 0.5가 아니어야합니까?
Dimitriy V. Masterov 2014

그렇습니다. 그러나 올바른 두 번째 인수를 제공하면 (위의 두 번째 줄에서와 같이) 그것이 작동하는 방식입니다. tau함수를 호출 할 때 지정하지 않으면 첫 번째 줄의 0.5 값은 단순히 기본 인수 입니다. 나는 게시물에서 명확히 할 것이다.
Glen_b-복지 모니카

@Glen_b 설명해 주셔서 감사합니다. 내가 바보 같은 짓을하지 않는 한, V는 의사 아니라 추정 된 Quantile에 대한 가중 편차의 합으로 보인다 . R2
Dimitriy V. Masterov

@Dimitriy 어, 네 말이 맞아. 나는 이것을 곧 고칠 것이다.
Glen_b-복지 모니카

@Dimitriy 나는 그것을 고쳤다 고 생각한다.
Glen_b-복귀 모니카

19

JASA에서 Koenker 및 Machado (1999) 가 제안한 유사 측정 값 은 관심 모델에 대한 가중치 편차의 합을 절편 만 나타나는 모델의 동일한 합계와 비교하여 적합도를 측정합니다. 다음과 같이 계산됩니다R2

R1(τ)=1yiy^iτ|yiy^i|+yi<y^i(1τ)|yiy^i|yiy¯τ|yiy¯|+yi<y¯i(1τ)|yiy¯|,

여기서 Y I = α τ + β τ X 인 장착 τ 번째 분위수 관찰 Iˉ Y = β τ 절편 전용 모델 피팅 값이다.와이^나는=ατ+βτ엑스τ나는와이¯=βτ

[ 0 , 1 ] 에 있어야하며, 가중 된 가중 합으로 구성된 분자는 0 이므로 1 은 완벽하게 적합합니다. 그것은지역은에 따라 QRM에 맞는 시책 때문에 τ 세계와는 달리, R 2 OLS에서. 그것은 아마도 그것을 사용하는 것에 대한 경고의 원천입니다. 꼬리에 맞는 모델이라면 다른 곳에서도 잘 맞는다는 보장이 없습니다. 이 방법을 사용하여 중첩 모델을 비교할 수도 있습니다.아르 자형1(τ)[0,1]τ아르 자형2

다음은 R의 예입니다.

library(quantreg)
data(engel)

fit0 <- rq(foodexp~1,tau=0.9,data=engel)
fit1 <- rq(foodexp~income,tau=0.9,data=engel)

rho <- function(u,tau=.5)u*(tau - (u < 0))
R1 <- 1 - fit1$rho/fit0$rho

이것은 아마도 더 우아하게 달성 될 수 있습니다.


수식이 제대로 표시되지 않습니다. 마이너스 로그인 후 : R_1(\tau) = 1 - 􀀀마지막 문자는 일종의 혼란입니다. 당신은 그것을 확인할 수 있습니까? Tex를 사용하는 대신 비표준 문자를 붙여 넣었을 수도 있습니다.
Tim

@Tim 나는 화면이나 화면에서 이상한 것을 보지 못한다.
Dimitriy V. Masterov

리눅스와 윈도우에서 다음과 같이 보입니다 : snag.gy/ZAp5T.jpg
Tim

@Tim 그 상자는 아무 것도 해당하지 않으므로 무시해도됩니다. 나중에 다른 컴퓨터에서 편집하려고합니다.
Dimitriy V. Masterov
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.