왜 수직 거리?


11

OLS 추정에 수평 거리가 아닌 선의 점에 대한 수직 편차를 취하는 이유는 무엇입니까?


1
오래된 질문이지만 x로 매개 변수화 된 확률 분포의 표본으로 데이터를 보는 것이 유용하다고 생각합니다.
Bendy

답변:


12

OLS ( 보통 최소 제곱 )는 수평 거리로 표현 된 값이 실험자에 의해 미리 결정되거나 높은 정확도 (수직 거리에 비해)로 측정된다고 가정합니다. 수평 거리에서 불확실성에 대한 의문이있는 경우 OLS를 사용하지 말고 대신 변수 오류 모델 또는 주성분 분석을 조사해야 합니다.


"직교 회귀"는 오염 된 가로 좌표 및 세로 좌표를 처리하는 방법을 찾을 때 발생할 수있는 또 다른 문제입니다.
JM은 통계학자가 아닙니다.

+1 통계에 있어서는 아직 틈새 시장입니다. 더 복잡한 최소 제곱 법 (X 가변성을 추가 할뿐만 아니라 오차 근사에 기초한 점에 대한 다른 처벌도 추가)은 실험 물리학에서 일반적입니다. ROOT 프레임 워크에는 수십 가지가 있습니다.

1

재미있는 질문. 내 대답은 OLS 모델을 피팅 할 때 암시 적으로 그리고 주로 종속 변수- "Y vs X"의 "Y"를 예측 / 설명하려고합니다. 따라서 주요 관심사는 결과와 관련하여 적합 선에서 실제 관측까지의 거리를 최소화하는 것입니다. 이는 수직 거리를 최소화하는 것을 의미합니다. 이것은 물론 잔차를 정의합니다.

또한 최소 제곱 수식은 대부분의 다른 경쟁 방법보다 도출하기가 더 쉬울 수 있습니다. :피

'whuber'가 위에서 언급했듯이, 가장 적합한 라인을 피팅 할 때 X와 Y를 동일하게 강조하는 다른 접근법이 있습니다. 내가 아는 한 가지 접근 방식은 "주요 선"또는 "주요 곡선"회귀로 점과 선 사이의 직교 거리를 최소화합니다 (수직 오차 선 대신 90도에 적합 선) . 나는 당신의 독서를 위해 하나의 참조를 아래에 게시합니다. 길지만 매우 접근하기 쉽고 깨달음입니다.

이것이 도움이 되길 바랍니다, Brenden

  1. 트레버 Hastie. 주요 곡선 및 표면 , 스탠포드 대학교 박사 학위 논문; 1984

1

또한 x는 실험 설계의 일부인 제어량 인 경우 결정된 실험으로 간주됩니다. y는 결과이고 임의의 수량입니다. x는 연속적인 양 (예를 들어 일부 약물의 농도) 일 수 있지만 0/1 스플릿 일 수 있습니다 (y가 가우시안이라고 가정하면 2 개의 샘플 t- 검정으로 이어짐). x가 연속적인 수량 인 경우 약간의 측정 오류가있을 수 있지만 일반적으로 이것이 y의 변동성보다 훨씬 작은 경우에는 무시됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.