바이어스-분산 방정식의 수학적 직관


12

I는 최근 질문 질문 : 표본 평균과 분산을 관련된 기본 방정식 뒤에 수학적 해석 / 직관 추구 , 형상 또는 그렇지.E[X2]=Var(X)+(E[X])2

그러나 이제는 표면적으로 유사한 바이어스-분산 트레이드 오프 방정식에 대해 궁금합니다.

MSE(θ^)=이자형[(θ^θ)2]=이자형[(θ^이자형[θ^])2]+(이자형[θ^]θ)2=바르(θ^)+편견(θ^,θ)2
( Wikipedia의 공식 )

나에게는 회귀에 대한 편향-분산 트레이드 오프 방정식과 피상적 인 유사성이 있습니다 : 세 개의 제곱과 다른 두 개의 항. 매우 피타고라스 찾고 있습니다. 이 모든 항목에 대해 직교성을 포함하여 비슷한 벡터 관계가 있습니까? 아니면 다른 관련 수학 해석이 있습니까?

나는 빛을 발산 할 수있는 다른 수학적 대상과 수학적 비유를 찾고 있습니다. 나는 여기에서 잘 다루는 정확도-정확한 비유를 찾고 있지 않다. 그러나 만약 사람들이 편향-분산 트레이드 오프와 훨씬 더 기본적인 평균-분산 관계 사이에 줄 수있는 비 기술적 비유가 있다면, 그것은 또한 대단 할 것입니다.

답변:


12

유사성은 피상적 인 것 이상입니다.

"바이어스-분산 트레이드 오프"는 두 개의 수직 유클리드 벡터에 적용된 피타고라스 정리로 해석 될 수 있습니다. 하나의 길이는 표준 편차이고 다른 하나의 길이는 편차입니다. 빗변의 길이는 근 평균 제곱 오차입니다.

근본적인 관계

출발점으로,이 공개 계산을 고려하십시오 . 유한 한 초 순간과 임의의 실수 a를 갖는 임의의 변수 유효 . 두 번째 모멘트가 유한하기 때문에 는 유한 평균 를 가지며 여기서 .a X μ = E ( X ) E ( X μ ) = 0XaXμ=이자형(엑스)이자형(엑스μ)=0

(1)이자형((엑스)2)=이자형((엑스μ+μ)2)=이자형((엑스μ)2)+2이자형(엑스μ)(μ)+(μ)2=바르(엑스)+(μ)2.

이 방송 방법 간의 평균 제곱 편차 및 "기준"값 따라 변화 : 그것의 이차 함수 에서 최소 평균 제곱 편차의 편차이고, .μ X엑스μ엑스

추정기 및 바이어스와의 연결

모든 추정기 는 (임의로) 랜덤 변수의 (측정 가능한) 함수이기 때문에 랜덤 변수입니다. 이전 에 의 역할을 수행 하고 estimand ( 가 추정하는 것으로 가정)를 하자. X θ θθ^엑스θ^θ

MSE(θ^)=E((θ^θ)2)=Var(θ^)+(E(θ^)θ)2.

추정기에 대한 바이어스 + 분산에 대한 설명이 문자 그대로 의 경우를 보았으므로 이제 돌아 갑시다 . 이 문제는 "수학적 대상과의 수학적 유추"를 추구합니다. 우리는 제곱 적분 랜덤 변수가 자연스럽게 유클리드 공간으로 만들어 질 수 있음을 보여줌으로써 그 이상을 할 수 있습니다.( 1 )(1)(1)

수학적 배경

매우 일반적인 의미에서 랜덤 변수는 확률 공간 대한 (측정 가능한) 실제 값 함수입니다 . 자주 기록되는 사각형 적분이다 그러한 기능들의 세트 (주어진 확률 구조를 이해하여), 거의 A는 힐베르트 공간. 하나로 통합하기 위해 우리는 통합 측면에서 실제로 다르지 않은 두 개의 임의 변수 와 를 합쳐야합니다 . 즉, 우리는 와 가 항상 동일 하다고 말합니다L 2 ( Ω ) X Y X Y(Ω,S,P)L2(Ω)XYXY

E(|XY|2)=Ω|X(ω)Y(ω)|2dP(ω)=0.

이것이 진정한 등가 관계인지 확인하는 것은 간단합니다. 가장 중요한 것은 가 와 같고 가 와 같으면 는 와 같습니다 . 그러므로 우리는 모든 제곱 적분 랜덤 변수를 등가 클래스로 분할 할 수 있습니다. 이 클래스는 집합을 구성합니다 . 또한, 는 값의 점별 가산 및 점별 스칼라 곱셈으로 정의 된 의 벡터 공간 구조를 상속합니다 . 이 벡터 공간에서 함수Y Y Z X Z L 2 ( Ω ) L 2 L 2XYYZXZL2(Ω)L2L2

X(Ω|엑스(ω)|2(ω))1/2=이자형(|엑스|2)

A는 규범 , 종종 작성 . 이 규범은 를 힐버트 공간으로 만듭니다. 힐버트 공간 을 "무한 차원 유클리드 공간"으로 생각하십시오 . 모든 유한 차원 부분 공간의 에서 표준이 상속 와 ,이 규범으로, 유클리드 공간 : 우리가 거기에 유클리드 기하학을 할 수 있습니다.L 2 ( Ω ) H V H H V||X||2L2(Ω)HVHHV

마지막으로, 우리는 (오히려 일반적인 측정 공간에 비해) 확률 공간에 특별 한 사실을해야하기 때문에 확률이다, 그것은 (에 의해 묶여있다 ) 어디서 상수 기능 어떤을위한 ( 고정 실수 )는 유한 규범을 가진 제곱 적분 랜덤 변수입니다. 1 ω P1ωaa

기하학적 해석

의 등가 클래스를 대표하는 것으로 생각되는 제곱 적분 랜덤 변수 고려하십시오 . 그것은 의미하는 를 가지고 있는데, 이것은 (상당히 확인할 수있는) 의 등가 클래스에만 의존합니다 . 하자 일 일정 확률 변수의 클래스입니다.L 2 ( Ω ) μ = E ( X ) X 1 : ω 1XL2(Ω)μ=E(X)X1:ω1

1 V L 2 ( Ω ) 2 | | X | | 2 2 = E ( X 2 ) X | | X 와 은 차원이 최대 인 유클리드 부분 공간 를 생성합니다 . 이 부분 공간에서 는 의 제곱 길이 이고 는 일정 확률 변수의 제곱 길이 . 그 근본적인 인 직각 . ( 의 한 가지 정의는 이것이 고유 한 숫자라는 것입니다.) 관계 이 쓰여질 수 있습니다.1VL2(Ω)2||X||22=E(X2)X ω a X μ 1 1 μ ( 1 )||a1||22=a2ωaXμ11μ(1)

||Xa1||22=||Xμ1||22+||(aμ)1||22.

그것은 정확히 피타고라스의 정리이며, 본질적으로 2500 년 전에 알려진 것과 같은 형태입니다. 개체 는 다리가 직각 삼각형의 빗변입니다 및 . X μ 1 ( a μ ) 1

Xa1=(Xμ1)(aμ)1
Xμ1(aμ)1

수학적 유추를 원한다면 유클리드 공간에서 직각 삼각형의 빗변으로 표현할 수있는 모든 것을 사용할 수 있습니다. 빗변은 "오류"를 나타내고 다리는 편차와 평균과의 편차를 나타냅니다.


우수한. 따라서 추론은 이전 질문 re 거의 동일합니다 . 그렇다면 그것들 사이에 비유가 있습니다. 편견이 의미와 유사하다는 것은 직관적으로 보입니다. 그리고 일반화는 평균이 0에 대한 첫 번째 순간이지만 바이어스는 매개 변수의 실제 값에 대한 것입니다. 그 소리가 맞습니까? Var=EX2(EX)2
Mitch

그렇습니다. (비슷한 해석으로 통찰력을 제공하는) 단서를 통해 이러한 것들을 측정하는 올바른 방법은 제곱에 관한 것입니다.
whuber

whuber, 관련 질문이 있습니다. 머신 러닝의 경우,이 두 가지 개념이 있습니다. "샘플 크기를 늘리면 어셈블러로 편향되지 않은 추정기의 분산이 0이됩니다"와 "모델 복잡성을 증가 시키면 낮은 바이어스와 높은 분산이 있습니다" . 따라서 계산 능력이 높을수록 더 복잡해져 바이어스가 줄어들지 만 분산이 증가한다고 말할 수 있습니다. 그러나 점근 법 하에서는 이러한 분산 증가가 상쇄됩니다.
ARAT

@ 무스타파 당신은 몇 가지 강력한 가정을합니다. 첫 번째는 샘플이 무작위 적 이며 (적어도 대략) 독립적 이라는 것입니다. ML 응용 프로그램에서는 그렇지 않습니다. 모델 복잡성 증가에 대한 결론은 일반적으로 사실이 아닙니다. 부분적으로 "복잡성 증가" 는 모델을 변경하고 있음을 의미하기 때문에 추정자가 추정하는 의미와 추정자가 추정치와 어떻게 관련 될 수 있는지에 대한 의문을 불러 일으 킵니다. . 증가하는 모델 복잡성이 바이어스 또는 분산에 일반적으로 예측 가능한 영향을 미친다는 것은 아닙니다.
whuber

4

이것은 정확성과 분산 편향에 대해 시각적으로 생각하는 방법입니다. 목표물을보고 있고 편향이없는 방식으로 목표물의 중심 가까이에 흩어져있는 많은 샷을 만든다고 가정합니다. 그런 다음 정확도는 분산에 의해서만 결정되며 분산이 작 으면 사수가 정확합니다.

이제 정밀도는 높지만 바이어스가 큰 경우를 생각해 봅시다. 이 경우 샷은 중앙에서 멀리 떨어진 지점에 흩어져 있습니다. 무언가가 조준점을 어지럽히지만이 조준점 주위에서 모든 샷은 새로운 조준점에 가깝습니다. 사수는 편견 때문에 정확하지만 매우 부정확합니다.

작은 바이어스와 높은 정밀도로 인해 샷이 정확한 다른 상황이 있습니다. 우리가 원하는 것은 바이어스가없고 작은 분산이거나 작은 바이어스가있는 작은 분산입니다. 일부 통계 문제에서는 둘 다 가질 수 없습니다. 따라서 MSE는 분산 바이어스 트레이드 오프를 유발하는 사용하려는 정확도의 척도가되고 MSE 최소화가 목표가되어야합니다.


바이어스-분산 및 정확도-정밀 비유에 대한 뛰어난 직관적 설명. 또한 피타고라스 정리와 같은 수학적 해석을 찾고 있습니다.
Mitch

1
나는 기하학적 해석을 논의한 다른 게시물에서 다루었 기 때문에 그것에 초점을 두지 않았습니다. 나는 당신을위한 링크를 찾을 것입니다.
Michael R. Chernick

@Mitch "바이어스-분산 트레이드 오프"를 검색하면 CV 사이트에서 134 개의 히트가 발생했습니다. 나는 피타고라스의 정리를 아직 찾지 못했지만 이것은 정말 훌륭 하며이 게시물에서 논의 한 목표의 그림이 있습니다. "바이어스-분산 트레이드 오프에 대한 직관적 인 설명".
Michael R. Chernick

나는 2017 년 1 월 5 일 "Var (X) = E [ ]-( E [ X ] ) 2의 직관 (기하학적 또는 기타)"에서 찾고있는 것을 발견했습니다 .엑스2이자형[엑스])2
Michael R. Chernick

@Mitch 나는 당신이 내가 찾고있는 질문을 게시 한 것을 몰랐습니다.
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.