답변:
치우침은 추정기의 예상 값과 추정되는 실제 값의 차이입니다. 예를 들어, 단순 랜덤 표본 (SRS)에 대한 표본 평균은 가능한 모든 SRS의 평균을 구하고 해당 평균을 구하면 모집단 평균 (유한)을 얻으므로 모집단 평균의 편견 추정량입니다. (이것은 대수입니다). 그러나 값과 관련된 샘플링 메커니즘을 사용하는 경우 평균이 편향 될 수 있습니다. 임의의 숫자 다이얼링 샘플이 소득에 대한 질문을합니다.
또한 자연스럽게 편향되는 일부 추정량입니다. 정리 된 평균은 치우친 모집단 / 분포에 대해 치우칩니다. 모집단 평균이 분모 과 함께 사용 되거나 표본 평균이 분모 n - 1 과 함께 사용되는 경우 표준 분산은 SRS에 대해 편향되지 않습니다.
여기에 R을 사용한 간단한 예가 있습니다. 평균 0과 표준 편차 1의 법선에서 많은 샘플을 생성 한 다음 샘플의 평균 평균, 분산 및 표준 편차를 계산합니다. 평균 및 분산 평균이 실제 값과 얼마나 가까운 지 확인하십시오 (샘플링 오류는 정확하지 않음을 의미 함). 이제 평균 sd를 비교하면 편향 추정기입니다.
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
회귀에서는 단계적 회귀를 통해 기울기의 편향 추정량을 얻을 수 있습니다. 추정 된 기울기가 0에서 멀어 질수록 변수가 단계적 회귀로 유지 될 가능성이 높고 0에 가까울수록 떨어질 가능성이 더 높아 지므로 이는 치우친 샘플링이며 최종 모형의 기울기는 더 커지는 경향이 있습니다. 실제 경사보다 0부터 올가미 및 릿지 회귀 바이어스와 같은 기법은 0을 향한 선택 바이어스에 대응하기 위해 0으로 기울어집니다.
바이어스는 추정기의 예상 값이 모집단 모수와 같지 않음을 의미합니다.
직관적으로 회귀 분석에서 이는 모수 중 하나의 추정치가 너무 높거나 너무 낮음을 의미합니다. 그러나 일반적으로 최소 제곱 회귀 추정치는 BLUE이며, 이는 최고의 선형 편향 추정량을 나타냅니다. 다른 형태의 회귀에서는 모수 추정값이 바이어스 될 수 있습니다. 편향과 분산 사이에는 종종 상충 관계가 있기 때문에 이것은 좋은 생각 일 수 있습니다. 예를 들어, 능선 회귀는 공선 성이있을 때 추정값의 분산을 줄이기 위해 사용되는 경우가 있습니다.
간단한 예는 회귀 컨텍스트에 있지 않지만 이것을 더 잘 설명 할 수 있습니다. 무게가 150 파운드 (한 바구니에 무게 저울이 있고 다른 바구니에 무게 더미가 있다고 가정)를 가정합니다. 이제 두 개의 욕실 저울이 있습니다. 몸무게는 각각 5 번입니다.
스케일 1은 152, 151, 151.5, 150.5 및 152의 가중치를 제공합니다.
스케일 2는 145, 155, 154, 146 및 150의 가중치를 제공합니다.
척도 1은 편향되어 있지만 분산이 낮습니다. 무게의 평균은 실제 무게가 아닙니다. 척도 2는 편차가 없지만 (평균은 150 임) 분산이 훨씬 높습니다.
어느 정도 규모가 더 낫습니까? 스케일이 무엇을 원하는지에 따라 다릅니다.
선형 회귀 분석에서 치우침은 훨씬 간단한 모형으로 복잡 할 수있는 실제 문제를 근사화하여 발생하는 오차를 나타냅니다. 간단히 말해서, 실생활에서 비즈니스 문제가 y = ax ^ 3 + bx ^ 2 + c 일 수있는 y * = (a *) x + b *와 같은 간단한 선형 모형을 가정합니다.
회귀 문제로부터 예상되는 시험 MSE (Mean squared error)는 다음과 같이 분해 될 수 있다고 말할 수있다. E (y0-f * (x0)) ^ 2 = Var (f * (x0)) + [바이어스 (f * (x0))] ^ 2 + Var (e)
f *-> 선형 회귀 모형 y0-> 검정 데이터에 기록 된 원래 반응 값 x0-> 검정 데이터에 기록 된 원래 예측값 e-> 복구 할 수없는 오류에 대해 가정 된 기능 형태 낮은 분산과 낮은 바이어스를 달성합니다.
참고 : Trevor Hastie & Robert Tibshirani의 통계 학습 소개는이 주제에 대한 좋은 통찰력을 제공합니다.