회귀 분석은 어떻게 작동합니까?


25

Quantile 회귀에 대한 직관적이고 접근 가능한 설명을 얻고 싶습니다.

결과 대한 간단한 데이터 세트 와 예측 변수 X 1 , X 2 가 있다고 가정 해 봅시다 .YX1,X2

예를 들어, 나는 .25, .5, .75에서 Quantile 회귀를 실행하고 β0,.25,β1,.25...β2,.75 .

입니까 β 값은 단순히 주문 발견 y 값을 주어진 분위수 근처 /에있는 실시 예에 기초한 선형 회귀 분석을 수행?

또는 Quantile로부터의 거리가 증가함에 따라 모든 샘플이 β 추정값에 기여 합니까?

아니면 완전히 다른 것입니까? 아직 접근 가능한 설명을 찾지 못했습니다.


3
수학과 관련하여 다음 두 가지 답변이 도움이 될 것입니다. stats.stackexchange.com/questions/102906/… , stats.stackexchange.com/questions/88387/…
Andy

답변:


21

나는 Koenker & Hallock (2001, Journal of Economic Perspectives) 과 Koenker의 시인 교과서를 추천 합니다.

  1. 시작점은 데이터 세트의 중앙값이 절대 오차의 합을 최소화 한다는 관찰입니다 . 즉, 50 % Quantile은 특정 최적화 문제에 대한 솔루션입니다 (절대 오류의 합계를 최소화하는 값 찾기).
  2. 이로부터 모든 quantile이 특정 최소화 문제에 대한 해결책, 즉 τ에 의존하는 가중치 로 비대칭 적으로 가중 된 절대 오차 의 합을 최소화하는 것이 쉽다는 것을 쉽게 알 수 있습니다.ττ
  3. 마지막으로 회귀 단계를 만들기 위해 예측 변수의 선형 조합으로이 최소화 문제에 대한 솔루션을 모델링하므로 이제 문제는 단일 값이 아니라 회귀 매개 변수 집합을 찾는 것 중 하나입니다.

따라서 직감은 매우 정확합니다. 모든 표본 은 우리가 목표로 하는 Quantile τ 에 따라 비대칭 가중치로 추정에 기여합니다 .βτ


요점 1)과 관련하여 Y가 대칭 적으로 분포되어 있다고 가정하는 것이 사실이 아닙니까? Y가 {1, 1, 2, 4, 10}처럼 왜곡되면 중앙값 2는 절대 오차를 최소화하지 않을 것입니다. Quantile 회귀 분석은 항상 Y가 대칭 적으로 분포되어 있다고 가정합니까? 감사!
Ben

1
@Ben : 아니오, 대칭이 필요하지 않습니다. 핵심은 중앙값이 예상되는 절대 오차를 최소화한다는 것 입니다. 값이 1, 2, 4, 10이고 확률이 0.4, 0.2, 0.2, 0.2 인 불연속 분포가있는 경우 점 요약 2는 예상되는 절대 오차를 최소화합니다 . 시뮬레이션은 R 코드의 몇 줄에 불과합니다.foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
S. Kolassa-복원 Monica Monica

(그렇습니다. "합계"에 대해 논의하는 대신 대답이 더 명확 해졌어야합니다.)
S. Kolassa-Monica Monica

Derp. 내가 무슨 생각을했는지 고맙습니다.
Ben

19

Quantile 회귀 분석의 기본 아이디어는 분석가가 단지 데이터가 아니라 데이터 배포에 관심이 있다는 사실에서 비롯됩니다. 평균부터 시작하겠습니다.

y=XβE(Y|X=x)=xβargminβ(yxβ)(yXβ)

argminβ|yXβ||.|

α

Q- 회귀는 데이터의 Quantile을 찾은 다음 해당 하위 집합 (또는 더 어려운 경계)에 선을 맞추는 것과는 조금 다릅니다.

α

β^α=argminβ{α|yXβ|I(y>Xβ)+(1α)|yXβ|I(y<Xβ)}.

보시다시피이 영리한 대상 함수는 Quantile을 최적화 문제로 변환하는 것 이상입니다.

βα


이 답변은 훌륭합니다.
Jinhua Wang
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.