선형 회귀 모델은 가정의 무리하게 분위수 회귀는 선형 회귀의 가정이 충족되는 경우, 다음 내 직감 (그리고 매우 제한된 경험) 평균 회귀 선형 회귀 거의 동일한 결과를 얻을 것입니다하지 않습니다.
선형 회귀는 어떤 장점이 있습니까? 확실히 더 친숙하지만 그 이외의 것입니까?
선형 회귀 모델은 가정의 무리하게 분위수 회귀는 선형 회귀의 가정이 충족되는 경우, 다음 내 직감 (그리고 매우 제한된 경험) 평균 회귀 선형 회귀 거의 동일한 결과를 얻을 것입니다하지 않습니다.
선형 회귀는 어떤 장점이 있습니까? 확실히 더 친숙하지만 그 이외의 것입니까?
답변:
계산이 더 단순하기 때문에 최소 제곱 잔차를 최소화하는 것이 절대 잔차를 최소화하는 것보다 선호되는 경우가 종종 있습니다. 그러나 다른 이유로 더 나을 수도 있습니다. 즉, 경우 가정에 해당하는 (이 그렇게 드문 일이 아니다) 그것은 (평균) 더 정확 솔루션을 제공합니다.
최소 제곱 회귀 및 Quantile 회귀 (절대 잔차를 최소화하여 수행 한 경우)는 가우시안 / 라플라스 분포 오차에 대한 우도 함수를 최대화하는 것으로 볼 수 있으며, 이러한 의미에서 매우 관련이 있습니다.
가우스 분포 :
잔차 제곱의 합을 최소화 할 때 로그 우도가 최대화 됨
라플라스 분포 :
절대 잔차의 합을 최소화 할 때 로그 우도가 최대화 됨
참고 : Laplace 분포와 절대 잔차의 합은 중앙값과 관련이 있지만 음수 및 양수 잔차에 다른 가중치를 부여하여 다른 Quantile에 일반화 할 수 있습니다.
오차 분포를 알면 (가정이 사실 일 경우) 관련 우도 함수를 선택하는 것이 좋습니다. 그 기능을 최소화하는 것이 더 최적입니다.
따라서 오차가 정규 분포를 따르는 경우 표본 평균은 표본 중앙값보다 분포 중앙값을 더 잘 추정합니다 . 최소 제곱 회귀 분석은 Quantile의 최적 추정값입니다. 최소 잔차 합계를 사용하는 것보다 낫습니다.
많은 문제가 정규 분포 오차를 다루기 때문에 최소 제곱 법을 사용하는 것이 매우 인기가 있습니다. 다른 유형의 분포를 다루기 위해 일반화 선형 모형을 사용할 수 있습니다 . 또한, GLM을 풀기 위해 사용될 수있는 반복 최소 제곱 법은 중간 값 (또는 일반화 된 버전에서 다른 분위수)을 찾는 것과 동일한 라플라스 분포 (즉 , 절대 편차 )에도 적용됩니다.
중앙값 또는 다른 분위수는 분포 유형과 관련하여 매우 강력하다는 장점이 있습니다. 실제 값은 그다지 중요하지 않으며 Quantile은 오더에만 관심이 있습니다. 따라서 분포가 무엇이든 절대 잔차를 최소화하는 것은 (quantile을 찾는 것과 동일) 매우 잘 작동합니다.
여기서 문제는 복잡하고 광범위 해지며 분포 함수에 대한 지식의 유형에 따라 다릅니다. 예를 들어 분포는 대략 정규 분포 일 수 있지만 일부 추가 특이 치 만 있습니다. 외부 값을 제거하여 처리 할 수 있습니다. 이러한 극단 값의 제거는 절단 된 평균이 중앙값보다 더 나은 추정값이 될 수있는 Cauchy 분포 의 위치 모수를 추정하는 데에도 사용 됩니다. 따라서 가정이 유지되는 이상적인 상황뿐만 아니라 덜 이상적인 적용 (예 : 추가 특이 치)의 경우에도 절대 잔차 합계 대신 일정한 형태의 잔차 합계를 사용하는 강력한 방법이있을 수 있습니다.
잘린 잔차를 사용한 회귀 계산은 계산 상 훨씬 더 복잡 할 수 있습니다. 따라서 실제로는 계산이 단순하기 때문에 (일반 최소 자승보다 단순하지 않고 잘린 최소 자승 보다 단순 하기 때문에) 수행되는 회귀 유형 인 Quantile 회귀 일 수 있습니다 .
또 다른 문제는 편향되지 않은 추정량에 비해 편향되어 있습니다. 위에서 나는 평균, 즉 최소 제곱 솔루션에 대한 최대 우도 추정치를 좋은 또는 선호되는 추정기로 설명했습니다. 왜냐하면 모든 바이어스되지 않은 추정기의 가장 낮은 분산을 갖기 때문에 (오류가 정규 분포 일 때). 그러나 편향 추정기가 더 좋을 수 있습니다 (예상 오차의 제곱 오차가 낮음).
이것은 질문을 다시 넓고 복잡하게 만듭니다. 적용 할 수있는 다양한 추정기 및 상황이 많이 있습니다. 제곱 된 잔차 손실 함수의 합을 사용하면 오류를 줄이는 데 효과적 일 수 있지만 (예 : 모든 종류의 정규화 방법) 모든 경우에 제대로 작동하지 않아도됩니다. 직관적으로 제곱 된 잔차 손실 함수의 합은 종종 모든 편향 추정기에 대해 잘 작동하기 때문에 최적의 바이어스 추정기는 아마도 제곱 된 잔차 손실 함수의 합에 가까운 것일 수 있습니다.
LR (Linear Regression)은 계수를 계산할 때 최소 제곱 최적화로 축소됩니다. 이는 회귀 모형과의 편차가 대칭임을 의미합니다. Quantile Regression (QR)에 대한 자세한 설명은 https://data.library.virginia.edu/getting-started-with-quantile-regression/에 있습니다.
LR 가정 (추론이 필요함 : p- 값, 신뢰 구간 등)이 충족되면 QR과 LR 예측은 비슷합니다. 그러나 가정이 강력하게 위반되면 표준 LR 추론이 잘못됩니다. 따라서 0.5 분위수 (중앙값) 회귀 분석은 LR보다 유리합니다. 또한 다른 Quantile에 회귀를 제공 할 때 더 많은 유연성을 제공합니다. 선형 모델과 동등한 것은 LR에서 계산 된 신뢰 한계입니다 (iid가 강하게 위반되는 경우에는 잘못된 것임).
그렇다면 LR의 장점은 무엇입니까? 물론 계산하기는 쉽지만 데이터 세트의 크기가 적당하지 않으면 눈에 띄지 않을 수 있습니다. 그러나 더 중요한 것은 LR 추론 가정은 불확실성을 낮추는 정보를 제공한다는 것입니다. 결과적으로 예측에 대한 LR 신뢰 구간은 일반적으로 좁아집니다. 따라서 가정에 대한 강력한 이론적 지원이 있다면 좁은 신뢰 구간이 유리할 수 있습니다.
선형 회귀는 데이터가 주어진 조건부 평균 반응을 추정하는 데 사용됩니다. 어디 응답이며 데이터입니다. 회귀는 우리에게. 유추가 유효하다는 특정 가정 (통계 텍스트에서 찾을 수 있음)이 있습니다. 이것들이 만족된다면 일반적으로 BLUE (최선 선형 편향 추정량-가우스-마코프 정리 참조)입니다.
Quantile regression은 중앙값을 포함한 조건부 분포의 모든 Quantile을 추정하는 데 사용할 수 있습니다. 이는 조건부 분포에 대한 평균보다 훨씬 많은 정보를 제공 할 수 있습니다. 조건부 분포가 대칭이 아니거나 꼬리가 두꺼울 수있는 경우 (예 : 위험 분석) 선형 회귀의 모든 가정이 충족되면 양자 회귀가 도움이됩니다.
물론, 선형 회귀에 비해 Quantile 추정을 수행하는 것은 수치 적으로 더 집중적이지만 일반적으로 훨씬 더 강력합니다 (예를 들어 중앙값이 평균에 대한 평균보다 더 강한 것처럼). 또한 선형 회귀가 아닌 경우 (예 : 검열 된 데이터)에 적합합니다. 분산 공분산 행렬의 직접 추정이 어렵거나 계산 비용이 많이 들기 때문에 추론이 까다로울 수 있습니다. 이 경우 부트 스트랩이 가능합니다.