그것은 말했다오차가 동질적이고 연속적으로 상관되지 않을 때 선형 비 편향 추정기의 클래스에서 y (OLS)의 최소 최소 제곱이 최적이라는 점. 균일 성 잔차에 대해, 잔차의 분산은 x 축에서 잔차 크기의 변동을 측정하는 위치와 무관합니다. 예를 들어, 측정 오차가 y 값 증가에 비례하여 증가한다고 가정 해보십시오. 그런 다음 회귀 분석을 수행하기 전에 이러한 y 값의 로그를 취할 수 있습니다. 그렇게하면 대수를 취하지 않고 비례 오차 모델을 피팅하는 것과 비교하여 피팅 품질이 향상됩니다. 일반적으로 동질성을 얻기 위해서는 y 또는 x 축 데이터의 역수, 로그, 제곱 또는 제곱근을 취하거나 지수를 적용해야 할 수도 있습니다. 이에 대한 대안은 가중치 기능을 사용하는 것입니다. (y−모델)2( y− 모델 )2와이2 는 최소화하는 것보다 효과적 입니다.( y− 모델 )2
많이 말했듯이 잔차를 더 균일하게 만드는 것이 더 정규 분포를 만들지 만, 종종 균일 성질이 더 중요합니다. 후자는 우리가 회귀를 수행하는 이유에 달려 있습니다. 예를 들어, 데이터의 제곱근이 대수를 사용하는 것보다 일반적으로 분포되어 있지만 오차가 비례 유형 인 경우, 대수의 t- 검정은 모집단 또는 측정 값의 차이를 탐지하는 데 유용하지만 예상치를 찾는 데 유용합니다 데이터의 제곱근 만 평균, 모드 및 중앙값이 같을 것으로 예상되는 대칭 분포이므로 값의 데이터는 제곱근을 사용해야합니다.
더욱이, y 축 값의 최소 오차 예측자를 제공하는 답을 원하지 않는 경우가 종종 있으며, 이러한 회귀는 심하게 편향 될 수 있습니다. 예를 들어, 때때로 x에서 최소 오류에 대해 회귀를 원할 수 있습니다. 또는 때때로 우리는 y와 x의 관계를 밝히기를 원하며 이는 일상적인 회귀 문제가 아닙니다. 그런 다음 Theil, 즉 중간 경사, 회귀를 x와 y 최소 오류 회귀 사이의 가장 단순한 절충으로 사용할 수 있습니다. 또는 x와 y에 대한 반복 측정의 분산이 무엇인지 알면 데밍 회귀를 사용할 수 있습니다. 이상 회귀가 많을수록 더 나은 회귀가 발생하는데, 이는 보통의 회귀 결과에 끔찍한 일을합니다. 그리고 중앙 경사 회귀의 경우 잔차가 정규 분포인지 여부는 중요하지 않습니다.
BTW, 잔차의 정규성이 반드시 유용한 선형 회귀 정보를 제공하지는 않습니다.예를 들어, 두 개의 독립적 인 측정을 반복 측정한다고 가정합니다. 우리는 독립성을 가지기 때문에 예상되는 상관 관계는 0이며 회귀선 기울기는 유용한 기울기가없는 임의의 숫자 일 수 있습니다. 우리는 위치의 추정, 즉 평균 (또는 평균 (또는 하나의 피크를 갖는 코카 또는 베타 분포) 또는 가장 일반적으로 모집단의 예상 값)을 설정하기 위해 측정을 반복하고 그로부터 x와 분산의 분산을 계산합니다. y로, 데밍 회귀 또는 기타로 사용될 수 있습니다. 또한, 원래 모집단이 정규 인 경우 중첩이 동일한 평균에서 정규적이라는 가정은 유용한 선형 회귀를 유발하지 않습니다. 이것을 더 수행하기 위해 그런 다음 초기 매개 변수를 변경하고 다른 Monte Carlo x 및 y- 값 함수 생성 위치로 새 측정을 설정하고 첫 번째 실행으로 해당 데이터를 대조한다고 가정하십시오. 그러면 모든 x 값에서 y 방향으로 잔차가 정상이지만 x 방향에서 히스토그램에는 두 개의 피크가 있으며, 이는 OLS 가정과 일치하지 않으며 기울기와 절편은 하나이므로 바이어스됩니다. x 축에 동일한 간격 데이터가 없습니다. 그러나 대조 된 데이터의 회귀는 이제 명확한 기울기와 절편을 가지지 만 이전에는 그렇지 않았습니다. 또한 반복 샘플링으로 두 점만 실제로 테스트하기 때문에 선형성을 테스트 할 수 없습니다. 실제로 상관 계수는 같은 이유로 신뢰할 수있는 측정이 아니며,
반대로, 때때로 오류가 회귀 변수에 대해 정규 분포를 갖는 것으로 가정됩니다. OLS 방법의 유효성에는이 가정이 필요하지 않지만, 경우에 따라 (특히 가설 검정 영역에서) 특정 추가 유한 샘플 특성을 설정할 수 있지만 여기를 참조 하십시오.. 그렇다면 OLS가 나중에 올바른 회귀 분석입니까? 예를 들어, 매일 같은 시간에 종가를 정확하게 측정 할 때 t- 축 (Think x- 축) 분산이 없습니다. 그러나 마지막 거래 (결산) 시간은 무작위로 분배되며 변수 간의 관계를 발견하기위한 회귀는 두 가지 분산을 모두 포함해야합니다. 그러한 상황에서, y의 OLS는 y 값의 최소 오차 만 추정 할 것인데, 이는 그 합의 시간 자체도 예측 될 필요가 있기 때문에 합의에 대한 거래 가격을 추정하기에는 좋지 않은 선택입니다. 또한 정규 분포 오차는 감마 가격 모델 보다 열등 할 수 있습니다 .
그게 무슨 상관이야? 음, 일부 주식은 1 분에 여러 번 거래되고 다른 주식은 매일 또는 매주 거래되지 않으며, 다소 큰 숫자 차이를 만들 수 있습니다. 그래서 그것은 우리가 원하는 정보에 달려 있습니다. 시장이 내일 마감 될 때 어떻게 행동 할 것인지 묻고 싶다면즉, OLS "유형"질문이지만 대답은 비선형 비정규 잔차 일 수 있으며 외삽을위한 올바른 곡률을 설정하기 위해 미분 적합치 (및 / 또는 높은 모멘트)와 일치하는 형상 계수를 갖는 적합 함수가 필요합니다. . (예를 들어 입방 스플라인을 사용하는 기능뿐만 아니라 파생 상품에 적합 할 수 있으므로 파생 계약의 개념은 거의 탐구되지 않더라도 놀라운 일이 아닙니다.) 우리가 돈을 벌지 여부를 알고 싶다면 특정 주식에 대해서는 문제가 이변 량이므로 OLS를 사용하지 않습니다.