"바이어스"는 직관적으로 무엇입니까?


21

선형 회귀 분석의 맥락에서 편견의 개념을 이해하기 위해 고심하고 있습니다.

  • 바이어스의 수학적 정의는 무엇입니까?

  • 정확히 무엇이 바이어스되고 왜 / 어떻게?

  • 예시적인 예?

답변:


28

치우침은 추정기의 예상 값과 추정되는 실제 값의 차이입니다. 예를 들어, 단순 랜덤 표본 (SRS)에 대한 표본 평균은 가능한 모든 SRS의 평균을 구하고 해당 평균을 구하면 모집단 평균 (유한)을 얻으므로 모집단 평균의 편견 추정량입니다. (이것은 대수입니다). 그러나 값과 관련된 샘플링 메커니즘을 사용하는 경우 평균이 편향 될 수 있습니다. 임의의 숫자 다이얼링 샘플이 소득에 대한 질문을합니다.

또한 자연스럽게 편향되는 일부 추정량입니다. 정리 된 평균은 치우친 모집단 / 분포에 대해 치우칩니다. 모집단 평균이 분모 과 함께 사용 되거나 표본 평균이 분모 n - 1 과 함께 사용되는 경우 표준 분산은 SRS에 대해 편향되지 않습니다. nn1

여기에 R을 사용한 간단한 예가 있습니다. 평균 0과 표준 편차 1의 법선에서 많은 샘플을 생성 한 다음 샘플의 평균 평균, 분산 및 표준 편차를 계산합니다. 평균 및 분산 평균이 실제 값과 얼마나 가까운 지 확인하십시오 (샘플링 오류는 정확하지 않음을 의미 함). 이제 평균 sd를 비교하면 편향 추정기입니다.

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

회귀에서는 단계적 회귀를 통해 기울기의 편향 추정량을 얻을 수 있습니다. 추정 된 기울기가 0에서 멀어 질수록 변수가 단계적 회귀로 유지 될 가능성이 높고 0에 가까울수록 떨어질 가능성이 더 높아 지므로 이는 치우친 샘플링이며 최종 모형의 기울기는 더 커지는 경향이 있습니다. 실제 경사보다 0부터 올가미 및 릿지 회귀 바이어스와 같은 기법은 0을 향한 선택 바이어스에 대응하기 위해 0으로 기울어집니다.


SRS?  
추기경

@cardinal 간단한 랜덤 샘플.
whuber

@ whuber : 와우. 약어가 의미가 있지만 더 공식적인 설정에서 약어를 발견 한 것은 기억 나지 않습니다. "표준"초기주의 인 특정 서브 필드 또는 적용 영역이 있습니까?
추기경


(+1) @whuber의 편집은이 답변을 분명히하는 데 도움이되었습니다.
추기경

7

바이어스는 추정기의 예상 값이 모집단 모수와 같지 않음을 의미합니다.

직관적으로 회귀 분석에서 이는 모수 중 하나의 추정치가 너무 높거나 너무 낮음을 의미합니다. 그러나 일반적으로 최소 제곱 회귀 추정치는 BLUE이며, 이는 최고의 선형 편향 추정량을 나타냅니다. 다른 형태의 회귀에서는 모수 추정값이 바이어스 될 수 있습니다. 편향과 분산 사이에는 종종 상충 관계가 있기 때문에 이것은 좋은 생각 일 수 있습니다. 예를 들어, 능선 회귀는 공선 성이있을 때 추정값의 분산을 줄이기 위해 사용되는 경우가 있습니다.

간단한 예는 회귀 컨텍스트에 있지 않지만 이것을 더 잘 설명 할 수 있습니다. 무게가 150 파운드 (한 바구니에 무게 저울이 있고 다른 바구니에 무게 더미가 있다고 가정)를 가정합니다. 이제 두 개의 욕실 저울이 있습니다. 몸무게는 각각 5 번입니다.

스케일 1은 152, 151, 151.5, 150.5 및 152의 가중치를 제공합니다.

스케일 2는 145, 155, 154, 146 및 150의 가중치를 제공합니다.

척도 1은 편향되어 있지만 분산이 낮습니다. 무게의 평균은 실제 무게가 아닙니다. 척도 2는 편차가 없지만 (평균은 150 임) 분산이 훨씬 높습니다.

어느 정도 규모가 더 낫습니까? 스케일이 무엇을 원하는지에 따라 다릅니다.


1
편견에 대한 정의는 정확하지만, 예제가 부정확성과 혼동되기를 두려워합니다. 이는 전혀 다른 것입니다! 바이어스는 통계 절차 (추정기)의 속성이며 정확도는 측정 프로세스 의 속성입니다 . (-1).
whuber

1
@ whuber : 예, 동의합니다. 그리고 여전히 그래도 편향과 관련하여 수학적 기대치와 표본 평균의 차이를 분명히해야한다고 생각합니다.
추기경

1
아니요, "정확하지 않은"(정확하게 정의하기는 어렵습니다)에 대해서는 말하지 않고 "분산"에 대해서는 말하려고하지 않았습니다. 한 스케일은 편향되지 않은 것이고 다른 스케일은 분산이 낮습니다. 나는 "정확한"또는 "정확한"이라는 단어를 사용하지 않았습니다. 체중을 너무 높게 (또는 너무 낮게) 추정하는 경향이 있습니다.
Peter Flom-Monica Monica 복원

1
그러나 이러한 "바이어스"는 부정확 한 의미 일뿐입니다. 첫 번째 줄에서 지정한 정의와 동일하지 않습니다. 또한 @cardinal이 지적한 것처럼이 예는 특정 표본의 평균과 기대치를 혼동합니다.
whuber

3
@whuber에 동의합니다. 영업 이익에 대한 요구되는 바이어스의 (적절한) 의미에서입니다 하지 당신은 그것의 측정에서 파생하는 것이 체중의 예상대로 오히려 편견이나 편향되어 있지만 규모!
추기경

0

선형 회귀 분석에서 치우침은 훨씬 간단한 모형으로 복잡 할 수있는 실제 문제를 근사화하여 발생하는 오차를 나타냅니다. 간단히 말해서, 실생활에서 비즈니스 문제가 y = ax ^ 3 + bx ^ 2 + c 일 수있는 y * = (a *) x + b *와 같은 간단한 선형 모형을 가정합니다.

회귀 문제로부터 예상되는 시험 MSE (Mean squared error)는 다음과 같이 분해 될 수 있다고 말할 수있다. E (y0-f * (x0)) ^ 2 = Var (f * (x0)) + [바이어스 (f * (x0))] ^ 2 + Var (e)

f *-> 선형 회귀 모형 y0-> 검정 데이터에 기록 된 원래 반응 값 x0-> 검정 데이터에 기록 된 원래 예측값 e-> 복구 할 수없는 오류에 대해 가정 된 기능 형태 낮은 분산과 낮은 바이어스를 달성합니다.

참고 : Trevor Hastie & Robert Tibshirani의 통계 학습 소개는이 주제에 대한 좋은 통찰력을 제공합니다.


3
이것은 허용 된 답변에서 주어진 편향의 표준 정의와 혼동하지 않기 위해 종종 "모델 오 사양 오류"와 같은 것으로 지칭됩니다. 그렇지 않으면 OLS가 회귀 계수의 편향 추정치 라는 (올바른) 주장을 이해하는 것이 불가능합니다 .
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.