선형 회귀 분석에서 가정의 필요성은 무엇입니까?


15

선형 회귀 분석에서 다음과 같은 가정을합니다.

  • 예측 변수의 각 값 집합에서 반응의 평균 는 예측 변수의 선형 함수입니다.E(Yi)(x1i,x2i,)
  • 오류 εi 는 독립적입니다.
  • 예측 변수의 각 값 세트 (x_ {1i}, x_ {2i},…) 에서 오류 ε_i 는 정규 분포입니다.εi(x1i,x2i,)
  • 오류, εi 예측기 값들의 각 세트에서, (x1i,x2i,) , 같음 (편차를 나타내고있다 σ2 ).
  • 선형 회귀를 풀 수있는 방법 중 하나는 정규 방정식을 사용하는 것입니다.

    θ=(XTX)1XTY

    수학적인 관점에서, 위의 방정식은 X ^ TXXT엑스뒤집을 수 있으면됩니다. 그렇다면 왜 이러한 가정이 필요합니까? 나는 몇몇 동료들에게 물었고 좋은 결과를 얻는 것이고 정상적인 방정식은 그것을 달성하는 알고리즘이라고 언급했다. 그러나이 경우 이러한 가정이 어떻게 도움이됩니까? 그것들을 유지하는 것이 더 나은 모델을 얻는 데 어떻게 도움이됩니까?


    2
    정규식을 사용하여 계수 신뢰 구간을 계산하려면 정규 분포가 필요합니다. CI 계산의 다른 공식 (흰색이라고 생각)은 비정규 분포를 허용합니다.
    keiv.fly

    모델이 작동하기 위해 항상 이러한 가정이 필요하지는 않습니다. 신경망에서는 내부에 선형 회귀가 있으며 제공 한 공식과 같이 rmse를 최소화하지만 대부분의 가정은 없습니다. 정규 분포, 등분 산, 선형 함수 없음, 오류조차도 종속적 일 수 있습니다.
    keiv.fly


    1
    @Alexis iid 인 독립 변수는 확실히 가정이 아닙니다 (그리고 iid 인 종속 변수도 가정이 아닙니다. 응답이 iid라고 가정하면 평균을 추정하는 것 이상으로 무의미한 일이라고 상상해보십시오). 그리고 "생략 된 변수 없음"은 변수를 생략하지 않는 것이 좋지만 실제로는 추가 가정이 아닙니다. 첫 번째 가정은 실제로이를 처리하는 것입니다.
    Dason

    1
    @Dason 내 링크가 유효한 해석에 필요한 "생략 된 변수 없음"의 강력한 예를 제공한다고 생각합니다. 또한 iid (예측 자에 대한 조건부)가 필요하며 임의의 보행으로 인해 iiid가 아닌 추정이 실패 할 수있는 훌륭한 예를 제공합니다 (평균 만 추정하는 경우).
    Alexis

    답변:


    19

    맞습니다-최소 제곱 선을 포인트에 맞추기 위해 이러한 가정을 만족할 필요는 없습니다. 결과를 해석하려면 이러한 가정이 필요합니다. 예를 들어, 입력 과 사이에 관계가 없다고 가정 하면 회귀에서 본 것보다 적어도 계수를 얻을 확률은 얼마입니까? Y β 1X1Yβ1


    17

    Wikipedia 의 Anscombe 사중주 이미지를 사용 하여 이러한 가정 중 일부가 분명하게 잘못되었을 때 선형 회귀 해석과 관련된 잠재적 문제에 대한 아이디어를 얻으십시오. 기본 설명 통계의 대부분은 네 가지 모두에서 동일합니다 (개별 값). 오른쪽 하단을 제외하고는 모두 동일합니다.) xi

    https://upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Anscombe%27s_quartet_3.svg/1280px-Anscombe%27s_quartet_3.svg.png


    나는 Anscombe에 따라 그림을 만들었습니다. 생략 된 변수 가정을 위반하는 것이 어떻게 보일 수 있는지 보여주는 . 여전히 iid 가정 위반 에 대한 Anscombe와 같은 그림을 작업 중입니다 .
    Alexis

    3

    선형 모델에 적합하다고 가정 할 필요는 없습니다. 그러나 모수 추정값이 바이어스되거나 최소 분산이 없을 수 있습니다. 가정을 위반하면 회귀 결과를 해석하는 데 예를 들어 신뢰 구간 구성이 더 어려워집니다.


    1

    좋습니다. 지금까지의 대답은 다음과 같습니다. 가정을 위반하면 나쁜 일이 발생할 수 있습니다. 흥미로운 방향은 다음과 같습니다. 우리가 필요로하는 모든 가정 (실제로 위와 약간 다른 가정)이 충족되면 왜 선형 회귀가 최상의 모형임을 확신 할 수 있습니까?

    p(yi|xi)E[Yi|Xi=xi]xi


    0

    두 가지 주요 가정은

    1. 관측의 독립
    2. 평균은 분산과 관련이 없습니다

    Julian Faraway 's book 의 토론을 참조하십시오 .

    이 두 가지가 모두 사실이라면, OLS는 귀하가 제시 한 다른 가정의 위반에 놀라 울 정도로 저항력이 있습니다.

    당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
    Licensed under cc by-sa 3.0 with attribution required.