분위수 회귀 : 손실 함수


24

나는 Quantile 회귀를 이해하려고 노력하고 있지만, 고통받는 한 가지는 손실 함수의 선택입니다.

ρτ(u)=u(τ1{u<0})

나는 의 최소 ​​기대치가 τ % -quantile 과 같다는 것을 알고 있지만,이 기능으로 시작하는 직관적 인 이유는 무엇입니까? 이 기능을 최소화하는 것과 Quantile의 관계는 보이지 않습니다. 누군가 나에게 설명 할 수 있습니까?ρτ(yu)τ%

답변:


28

나는 하나 가지고 올 수있는 방법에 대한 통찰력을 요구로이 질문에 이해할 수 있는 손실을 최소화 부로서 주어진 분위수를 생산하지 손실 함수 에 상관없이 기본 분포가 될 일을. 그러므로 Wikipedia 나이 특정 손실 함수가 작동하는 곳 에서 분석을 반복하는 것은 불만족 스러울 것 입니다.

친숙하고 간단한 것으로 시작합시다.

당신이 말하는 것은 분포 또는 데이터 집합 F에 상대적인 "위치" 찾는 것 입니다. 예를 들어, 평균 ˉ x 는 예상 제곱 잔차를 최소화하는 것으로 잘 알려져있다 . 즉,이 값은xFx¯

LF(x¯)=R(xx¯)2dF(x)

가능한 한 작습니다. 나는이 표기법을 사용하여 손실 에서 파생되고, F 에 의해 결정된다는 것을 상기 시켰지만, 가장 중요한 것은 ˉ xLFx¯ .

x * 가 조금씩 변경 될 때 함수 값이 감소하지 않음을 보여줌으로써 모든 기능을 최소화 함 을 나타내는 표준 방법 . 이러한 값을 함수 의 임계점 이라고 합니다.xx

백분위 수 F - 1 ( α ) 이 어떤 중요한 손실 함수 가 임계점이 되는가? 그 가치에 대한 손실은ΛF1(α)

LF(F1(α))=RΛ(xF1(α))dF(x)=01Λ(F1(u)F1(α))du.

이것이 중요한 포인트가 되려면 미분 값이 0이어야합니다. 우리가 어떤 해결책을 찾기 위해 노력하고 있기 때문에, 우리는 조작이 합법 여부를 확인하기 위해 일시 정지하지 않을 것이다 : 우리가 (예를 들면 우리가 정말 차별화 할 수 있는지 여부 등의 기술적 인 세부 사항 확인하려는 것이다 , 말을). 그러므로Λ

(1)0=LF(x)=LF(F1(α))=01Λ(F1(u)F1(α))du=0αΛ(F1(u)F1(α))duα1Λ(F1(u)F1(α))du.

On the left hand side, the argument of Λ is negative, whereas on the right hand side it is positive. Other than that, we have little control over the values of these integrals because F could be any distribution function. Consequently our only hope is to make Λ depend only on the sign of its argument, and otherwise it must be constant.

ΛΛ1τ>0(1)

0=ατ(1α),

어디서 유일한 솔루션입니다, 긍정적 인 여러까지,

Λ(x)={x, x0α1αx, x0.

Multiplying this (natural) solution by 1α, to clear the denominator, produces the loss function presented in the question.

Clearly all our manipulations are mathematically legitimate when Λ has this form.


19

The way this loss function is expressed is nice and compact but I think it's easier to understand by rewriting it as

ρτ(Xm)=(Xm)(τ1(Xm<0))={τ|Xm|ifXm0(1τ)|Xm|ifXm<0)

If you want to get an intuitive sense of why minimizing this loss function yields the τth quantile, it's helpful to consider a simple example. Let X be a uniform random variable between 0 and 1. Let's also choose a concrete value for τ, say, 0.25.

So now the question is why would this loss function be minimized at m=0.25? Obviously, there's three times as much mass in the uniform distribution to the right of m than there is to the left. And the loss function weights the values larger than this number at only a third of the weight given to values less than it. Thus, it's sort of intuitive that the scales are balanced when the τth quantile is used as the inflection point for the loss function.


1
Shouldn't it be the other way? Under-guessing will cost three times as much?
Edi Bice

Thanks for catching that. The formula is right but I initially worded it incorrectly in my explanation.
jjet
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.