Quantile 회귀에 비해 선형 회귀의 장점은 무엇입니까?


15

선형 회귀 모델은 가정의 무리하게 분위수 회귀는 선형 회귀의 가정이 충족되는 경우, 다음 내 직감 (그리고 매우 제한된 경험) 평균 회귀 선형 회귀 거의 동일한 결과를 얻을 것입니다하지 않습니다.

선형 회귀는 어떤 장점이 있습니까? 확실히 더 친숙하지만 그 이외의 것입니까?


3
'보다 친숙한'것은 '해석 성'과 '안정성'을 추가하고 싶지만 선형 회귀의 장점 중 하나는 평균과 그 평균이 표본 모집단을 얼마나 잘 나타내는 지 알려줍니다 (잔여는 매우 유익합니다) . 선형 회귀는 가정이 충족 될 때 큰 가치를 가지며 충족되지 않을 때 가치가 있습니다.
JustGettin 시작일 :

5
: 나는 한 가지 중요한 문제는이 두 스레드에서 논의 된 것을 주장 stats.stackexchange.com/questions/153348/...stats.stackexchange.com/questions/146077/... - 효율성, 가능성, 심지어 최적를 특정 아래 가정
Christoph Hanck

1
추가적이지만 사소한 요점으로, LAD에 이용할 수없는 명시적이고 폐쇄 된 형태의 솔루션의 가용성을 추가 할 수 있으며, 이는 그러한 기술을 실무자들에게 덜 매력적으로 만들 수있다.
Christoph Hanck

1
답은 단일 모집단 모수를 추정하는 간단한 경우를 비교 한 다음 최소 제곱 오차가 가우시안 오차에서 더 잘 수행되고 최소 절대 잔차 (가정 사용)가 다른 유형의 오차에 대해 더 잘 수행됨을 보여주는 것과 같습니다. 그러나이 질문은보다 복잡한 선형 모형에 관한 것이며 문제는 더욱 복잡하고 광범위 해지기 시작합니다. 간단한 문제의 직관 (단일 평균 / 중간 값 추정)은 더 큰 모형에 효과적이지만 얼마나 많이 해결해야합니까? 그리고 특이점, 분포, 계산에 대한 견고성 비교 방법은 무엇입니까?
Sextus Empiricus

2
필자의 경우 응답 변수가 왜곡되고 (예 : 고객 지출) 변환 / 링크 기능 단계의 도입이 전체 분석을 모호하게 할 때 기술이 아닌 사람들에게 설명하기 위해 양자 회귀가 훨씬 우수하다는 것을 알았습니다. 그런 의미에서 나는“ 중앙 회귀는 선형 회귀와 거의 동일한 결과를 줄 것이다 ”라는 주장에 이의를 제기 할 것이다 . 특히 잠재적으로 치우친 응답 변수를 처리 할 때는 그렇지 않습니다.
usεr11852는 Reinstate Monic이

답변:


10

계산이 더 단순하기 때문에 최소 제곱 잔차를 최소화하는 것이 절대 잔차를 최소화하는 것보다 선호되는 경우가 종종 있습니다. 그러나 다른 이유로 더 나을 수도 있습니다. 즉, 경우 가정에 해당하는 (이 그렇게 드문 일이 아니다) 그것은 (평균) 더 정확 솔루션을 제공합니다.

최대 가능성

최소 제곱 회귀 및 Quantile 회귀 (절대 잔차를 최소화하여 수행 한 경우)는 가우시안 / 라플라스 분포 오차에 대한 우도 함수를 최대화하는 것으로 볼 수 있으며, 이러한 의미에서 매우 관련이 있습니다.

  • 가우스 분포 :

    f(x)=12πσ2e(xμ)22σ2

    잔차 제곱의 합을 최소화 할 때 로그 우도가 최대화 됨

    logL(x)=n2log(2π)nlog(σ)12σ2i=1n(xiμ)2sum of squared residuals

  • 라플라스 분포 :

    f(x)=12be|xμ|b

    절대 잔차의 합을 최소화 할 때 로그 우도가 최대화 됨

    logL(x)=nlog(2)nlog(b)1bi=1n|xiμ|sum of absolute residuals

참고 : Laplace 분포와 절대 잔차의 합은 중앙값과 관련이 있지만 음수 및 양수 잔차에 다른 가중치를 부여하여 다른 Quantile에 일반화 할 수 있습니다.

알려진 오류 분포

오차 분포를 알면 (가정이 사실 일 경우) 관련 우도 함수를 선택하는 것이 좋습니다. 그 기능을 최소화하는 것이 더 최적입니다.

μ

따라서 오차가 정규 분포를 따르는 경우 표본 평균은 표본 중앙값보다 분포 중앙값을 더 잘 추정합니다 . 최소 제곱 회귀 분석은 Quantile의 최적 추정값입니다. 최소 잔차 합계를 사용하는 것보다 낫습니다.

많은 문제가 정규 분포 오차를 다루기 때문에 최소 제곱 법을 사용하는 것이 매우 인기가 있습니다. 다른 유형의 분포를 다루기 위해 일반화 선형 모형을 사용할 수 있습니다 . 또한, GLM을 풀기 위해 사용될 수있는 반복 최소 제곱 법은 중간 값 (또는 일반화 된 버전에서 다른 분위수)을 찾는 것과 동일한 라플라스 분포 (즉 , 절대 편차 )에도 적용됩니다.

알 수없는 오류 분포

견고성

중앙값 또는 다른 분위수는 분포 유형과 관련하여 매우 강력하다는 장점이 있습니다. 실제 값은 그다지 중요하지 않으며 Quantile은 오더에만 관심이 있습니다. 따라서 분포가 무엇이든 절대 잔차를 최소화하는 것은 (quantile을 찾는 것과 동일) 매우 잘 작동합니다.

여기서 문제는 복잡하고 광범위 해지며 분포 함수에 대한 지식의 유형에 따라 다릅니다. 예를 들어 분포는 대략 정규 분포 일 수 있지만 일부 추가 특이 치 만 있습니다. 외부 값을 제거하여 처리 할 수 ​​있습니다. 이러한 극단 값의 제거는 절단 된 평균이 중앙값보다 더 나은 추정값이 될 수있는 Cauchy 분포 의 위치 모수를 추정하는 데에도 사용 됩니다. 따라서 가정이 유지되는 이상적인 상황뿐만 아니라 덜 이상적인 적용 (예 : 추가 특이 치)의 경우에도 절대 잔차 합계 대신 일정한 형태의 잔차 합계를 사용하는 강력한 방법이있을 수 있습니다.

잘린 잔차를 사용한 회귀 계산은 계산 상 훨씬 더 복잡 할 수 있습니다. 따라서 실제로는 계산이 단순하기 때문에 (일반 최소 자승보다 단순하지 않고 잘린 최소 자승 보다 단순 하기 때문에) 수행되는 회귀 유형 인 Quantile 회귀 일 수 있습니다 .

편견 / 편견

또 다른 문제는 편향되지 않은 추정량에 비해 편향되어 있습니다. 위에서 나는 평균, 즉 최소 제곱 솔루션에 대한 최대 우도 추정치를 좋은 또는 선호되는 추정기로 설명했습니다. 왜냐하면 모든 바이어스되지 않은 추정기의 가장 낮은 분산을 갖기 때문에 (오류가 정규 분포 일 때). 그러나 편향 추정기가 더 좋을 수 있습니다 (예상 오차의 제곱 오차가 낮음).

이것은 질문을 다시 넓고 복잡하게 만듭니다. 적용 할 수있는 다양한 추정기 및 상황이 많이 있습니다. 제곱 된 잔차 손실 함수의 합을 사용하면 오류를 줄이는 데 효과적 일 수 있지만 (예 : 모든 종류의 정규화 방법) 모든 경우에 제대로 작동하지 않아도됩니다. 직관적으로 제곱 된 잔차 손실 함수의 합은 종종 모든 편향 추정기에 대해 잘 작동하기 때문에 최적의 바이어스 추정기는 아마도 제곱 된 잔차 손실 함수의 합에 가까운 것일 수 있습니다.


오차 분포를 알면 관련 우도 함수를 선택하는 것이 좋습니다. 그 기능을 최소화하는 것이 더 최적입니다. 이것이 잘못되었다고 말할 수는 없지만 자격이 있어야합니다. 물론 이것은 다른 손실 함수에서 최적 추정기에 대한 나의 질문 (당신이 대답 한)과 다시 한 번 관련이 있습니다.
Richard Hardy

표본 분산이 가장 낮기 때문에 가장 좋은 방법입니다. 편차는 일반적으로 편차를 무시하기 때문에 합리적인 손실 함수가 아닙니다. 합리적인 대응은 분산과 편향을 모두 고려하는 제곱 오차 (일명 평균 제곱 오차)가 예상됩니다. 최소 제곱 회귀 분석은 Quantile의 최적 추정값입니다. 중앙값 – 예, 그러나 다른 것? 그렇다면, 왜? 어쨌든 당신은 아주 좋은 대답입니다!
Richard Hardy

1
@RichardHardy이 주제는 너무 광범위합니다. 실제로 오류 = 분산 + 바이어스. 나는 샘플 평균의 바이어스가 샘플 중앙값과 동일하다고 가정했습니다 (또는 더 일반적인 : 최소 제곱 잔차의 합과 절대 잔차의 최소 합은 같은 바이어스를 가짐). 이것은 다양한 오류 분포 (예 : 대칭 오류 분포)를 고려할 때 사실이지만 다른 경우에는 질문이 더 복잡해집니다. (요점은 주로 오류가 정규 분포로 분포되어 있고 최소 제곱 회귀가 유리
하다는

1
중앙값을 고려하지 않고 다른 Quantile을 고려할 때도 마찬가지입니다 (질문의 복잡성). 정규 분포 오차의 경우 MLE이 모든 Quantile에 대해 최상의 결과를 제공한다고 생각하지만 직관에 동의합니다. 다시 말하지만 문제는 매우 광범위합니다 (샘플 수, 오류 분포 유형 및 오류에 대한 확실성 등에 따라 다름).
Sextus Empiricus 2016 년

1
깨진 시계 내가 깨진 클럭 MLE를 호출하지 것이다 정확히 바로 하루에 두 번이다. 물론 문제를 잘 알고 있으면 전체 오차를 개선하기 위해 편차 감소 바이어스를 도입 할 수 있습니다. 이것은 반드시 다른 (분위) 유형의 회귀로 이동하는 것은 아니며 최소한의 사각형 빵과 버터에 잼이나 꿀을 넣을 수도 있습니다. MLE를 고장난 시계와 비교하고 싶다면 우리가 가장 많이 사용하는 시간 근처에 서있는 시계입니다.
Sextus Empiricus

2

LR (Linear Regression)은 계수를 계산할 때 최소 제곱 최적화로 축소됩니다. 이는 회귀 모형과의 편차가 대칭임을 의미합니다. Quantile Regression (QR)에 대한 자세한 설명은 https://data.library.virginia.edu/getting-started-with-quantile-regression/에 있습니다.

LR 가정 (추론이 필요함 : p- 값, 신뢰 구간 등)이 충족되면 QR과 LR 예측은 비슷합니다. 그러나 가정이 강력하게 위반되면 표준 LR 추론이 잘못됩니다. 따라서 0.5 분위수 (중앙값) 회귀 분석은 LR보다 유리합니다. 또한 다른 Quantile에 회귀를 제공 할 때 더 많은 유연성을 제공합니다. 선형 모델과 동등한 것은 LR에서 계산 된 신뢰 한계입니다 (iid가 강하게 위반되는 경우에는 잘못된 것임).

그렇다면 LR의 장점은 무엇입니까? 물론 계산하기는 쉽지만 데이터 세트의 크기가 적당하지 않으면 눈에 띄지 않을 수 있습니다. 그러나 더 중요한 것은 LR 추론 가정은 불확실성을 낮추는 정보를 제공한다는 것입니다. 결과적으로 예측에 대한 LR 신뢰 구간은 일반적으로 좁아집니다. 따라서 가정에 대한 강력한 이론적 지원이 있다면 좁은 신뢰 구간이 유리할 수 있습니다.


2

선형 회귀는 데이터가 주어진 조건부 평균 반응을 추정하는 데 사용됩니다. 이자형(와이|엑스) 어디 와이 응답이며 엑스데이터입니다. 회귀는 우리에게이자형(와이|엑스)=엑스β. 유추가 유효하다는 특정 가정 (통계 텍스트에서 찾을 수 있음)이 있습니다. 이것들이 만족된다면 일반적으로β BLUE (최선 선형 편향 추정량-가우스-마코프 정리 참조)입니다.

Quantile regression은 중앙값을 포함한 조건부 분포의 모든 Quantile을 추정하는 데 사용할 수 있습니다. 이는 조건부 분포에 대한 평균보다 훨씬 많은 정보를 제공 할 수 있습니다. 조건부 분포가 대칭이 아니거나 꼬리가 두꺼울 수있는 경우 (예 : 위험 분석) 선형 회귀의 모든 가정이 충족되면 양자 회귀가 도움이됩니다.

물론, 선형 회귀에 비해 Quantile 추정을 수행하는 것은 수치 적으로 더 집중적이지만 일반적으로 훨씬 더 강력합니다 (예를 들어 중앙값이 평균에 대한 평균보다 더 강한 것처럼). 또한 선형 회귀가 아닌 경우 (예 : 검열 된 데이터)에 적합합니다. 분산 공분산 행렬의 직접 추정이 어렵거나 계산 비용이 많이 들기 때문에 추론이 까다로울 수 있습니다. 이 경우 부트 스트랩이 가능합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.