... 예상되는 [제곱 오차] 손실은 제곱 바이어스 항 (평균 예측이 실제 모델과 얼마나 멀리 떨어져 있는지 설명), 분산 항 (평균 주위 예측의 확산을 설명)으로 분해 될 수 있습니다. 노이즈 용어 (데이터의 고유 노이즈를 제공)
제곱 오차 손실 분해를 볼 때
나는 두 개의 용어, 즉 편향에 대한 용어와 추정기 또는 예측 변수의 분산에 대한 용어, 있습니다. 예상되는 손실에는 추가 노이즈 조건이 없습니다. 가변성은 샘플 자체가 아니라 의 가변성이므로, .δ
Eθ[(θ−δ(X1:n))2]=(θ−Eθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]−δ(X1:n))2]
δ ( X 1 : n )δ(X1:n)δ(X1:n)
- 제곱 손실 이외의 손실 함수를 사용하여 바이어스-분산 분해를 수행 할 수 있습니까?
제곱 치우침 + 분산 분해 (및 내가 가르치는 방법)에 대한 나의 해석은 피 타고르의 정리와 통계적으로 동등한 것입니다. 즉, 추정기와 특정 세트 내의 점 사이의 제곱 거리는 제곱 거리의 합입니다 추정기와 세트 사이의 세트와 세트의 직교 투영과 세트 내의 점 사이의 제곱 거리. 주어진 모델 데이터 세트에 대해 거리를 기반으로 한 손실 : 모든 모델에 대해 예상 손실이 최소 인 모델이 두 개 이상있는 경우, 그럴 경우 편차와 분산의 조합이 서로 다를 수 있음을 의미합니다. 직교 투영, 즉 내부 산물, 즉 본질적으로 힐버트 공간의 동일한 최소 예상 손실은이 분해를 만족시킨다.
- 주어진 모델 데이터 세트에 대해 모든 모델에 대해 예상 손실이 최소 인 모델이 두 개 이상 있습니까? 그렇다면, 최소 예상 손실이 동일한 다른 바이어스 및 분산 조합이있을 수 있습니까?
문제는 불분명합니다. 최소 모델 이상으로
를 의미하는 경우 일정한 예상 손실 (또는 위험) 이있는 통계 모델 및 관련 결정 . 예를 들어 정규 평균의 MLE를 생각해보십시오.
minθEθ[(θ−δ(X1:n))2]
- 실제 모델을 모른다면 어떻게 바이어스를 계산할 수 있습니까?
일반적으로 바이어스는 가정 된 분포 패밀리 내에서 실제 모델과 가장 가까운 모델 사이의 거리입니다. 실제 모델을 알 수없는 경우 부트 스트랩을 통해 바이어스를 확인할 수 있습니다.
- 예상 손실 (제곱 바이어스 및 분산의 합)보다 바이어스 또는 분산을 최소화하는 것이 더 적절한 상황이 있습니까?
같은 다른 고려 손실 함수
추진 제로 풋 가장 바이어스의 평가 누르면서 무한대가 전환하는 분산에 중점을 둡니다.
(θ−Eθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]−δ(X1:n))2]0<α
αα