편향-분산 분해 : 예측 된 제곱 예측 오차에 대한 항으로 돌이킬 수없는 오차

Hastie et al. "통계 학습의 요소" (2009)는 데이터 생성 프로세스를 고려합니다

Y = f (X) + ε

$Y = f(X) + \varepsilon$ 와

E (ε) = 0

$\mathbb{E}(\varepsilon)=0$ 과

Var (ε) = σ_{ε}^{2}

$\text{Var}(\varepsilon)=\sigma^2_{\varepsilon}$ .

이 시점에서 예상되는 제곱 예측 오차의 다음과 같은 바이어스-분산 분해를 제시합니다. $x_0$ (p. 223, 공식 7.9) :

\begin{aligned} Err (x_{0}) & = E ([y - \hat{f} (x_{0})]^{2} | X = x_{0}) \\ = \dots \\ = σ_{ε}^{2} + {Bias}^{2} (\hat{f} (x_{0})) + Var (\hat{f} (x_{0})) \\ = Irreducible error + {Bias}^{2} + Variance . \end{aligned}

$\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) + \text{Var}(\hat f(x_0)) \\ &= \text{Irreducible error} + \text{Bias}^2 + \text{Variance} .\\ \end{aligned}$ 내 작품에서 나는 지정하지 않는다

\hat{f} (\cdot)

$\hat f(\cdot)$ 그러나 임의 예측을

\hat{y}

$\hat y$ 대신 (관련이있는 경우).
질문 : 용어를 찾고 있습니다

{Bias}^{2} + Variance

$\text{Bias}^2 + \text{Variance}$ 보다 정확하게는

Err (x_{0}) - Irreducible error .

$\text{Err}(x_0) - \text{Irreducible error}.$

— 리차드 하디
소스

여기서 질문이 무엇입니까?

— Michael R. Chernick

@ sntx, 아이디어 주셔서 감사합니다. 그러나 어떻게 든 제대로 들리지 않습니다. 아마 오류를 모델링 (때문에 잘못된 모형 및 모델의 부정확 한 추정에 즉 오류),하지만 예측 창출 모델 (예를 들어 전문가 예보)가없는 경우 그것은 이해가되지 않습니다.

— Richard Hardy

@DeltaIV, 오히려 좋습니다. 그러나 나는 그 용어가 청구되었다고 생각한다. 예측이 나쁘고 더 잘할 수있는 것처럼 보입니다. 그러나 주어진 데이터에 최선을 다했다고 가정 해 봅시다. 따라서 올바른 모델을 선택했지만 ( "모델 바이어스"없음) 표본이 너무 작아서 계수를 완벽하게 추정 할 수 없습니다. 따라서 추정 분산 ( "모델 분산")은 주어진 표본 크기에 대해 실제로 환원 할 수 없습니다. 반면 "환원 오차"라는 용어는 그렇지 않습니다. 나는 우리가 더 나은 용어를 만들 수 있다고 확신하지는 않지만 여전히 그것을 위해 노력하고 싶습니다.

— Richard Hardy

@DeltaIV, OK, 이제는 그것이 감당할 수있는 직감을 얻었습니다. 더 이상의 설명없이 사용하면 용어가 오도 될 수 있습니다 (나에게 설명해야했던 것처럼). 후자의 제안은 정확합니다. 정말 훌륭하지만 말했듯이 상당히 복잡합니다.

— Richard Hardy

@DeltaIV, 나는 그런 소리를 낼 의도가 없었습니다. 이것은 개인적인 것이 아닙니다. 내 의견이 (나의 설득력있는) 주장 위에있다. 하지만 저와 토론 해 주셔서 감사합니다.

— Richard Hardy

답변:

나는 환원 가능한 오류를 제안한다 . 이것은 또한 단락에서 채택 된 용어입니다 2.1.1 가레스, 위튼, Hastie & Tibshirani, 통계 학습에 대한 소개 , 기본적으로 그들이 사용하는 사실을 제외하고 ESL + 아주 멋진 R 코드 실험실의 단순화 (인 책 attach그러나 아무도 완벽하지는 않습니다. 아래에이 용어의 장단점이 나와 있습니다.

우선, 우리는 우리가 가정 할뿐 아니라 $\epsilon$ 평균 0을 가지고, 또한으로 독립 의 $X$ (2.6.1 절, ESL의 식 2.29, 2 참조 ^ND 판, 12 ^번째 인쇄). 그럼 물론 $\epsilon$ 에서 추정 할 수 없다 $X$ 가설 클래스에 관계없이 $\mathcal{H}$ (모델 군)을 선택하고 가설을 배우기 위해 사용하는 표본의 크기 (모델 추정) 이것은 왜 설명 $\sigma^2_{\epsilon}$ 돌이킬 수없는 오류 라고 합니다 .

유추하여, 오류의 나머지 부분을 정의하는 것이 자연스러워 보입니다. $\text{Err}(x_0)-\sigma^2_{\epsilon}$ , 환원 오류 입니다. 이제이 용어는 다소 혼란스러워 보일 수 있습니다. 사실, 데이터 생성 프로세스에 대한 가정 하에서 우리는 다음을 증명할 수 있습니다.

f (x) = E [Y | X = x]

$f(x)=\mathbb{E}[Y\vert X=x]$

따라서, 환원성 오차 는 다음의 경우에만 0으로 감소 될 수있다 $\mathbb{E}[Y\vert X=x]\in \mathcal{H}$ (물론 우리는 일관된 추정기가 있다고 가정합니다). 만약 $\mathbb{E}[Y\vert X=x]\notin \mathcal{H}$ 무한 샘플 크기의 한계에서도 reducible error를 0으로 만들 수 없습니다. 그러나 여전히 샘플 크기를 변경하거나 추정기에서 정규화 (수축)를 도입하여 제거 할 수는 없지만 줄일 수있는 오류의 유일한 부분입니다. 즉, 다른 것을 선택하여 $\hat{f}(x)$ 우리의 모델 군에서.

기본적으로, 환원은 의 의미가 아닌 의미 zeroable 반드시 임의적으로 작게하지 않더라도, (! 우웩) 만 감소시킬 수있는 오류의 일부를 의미한다. 또한 원칙적으로이 오류는 확대하여 0으로 줄일 수 있습니다. $\mathcal{H}$ 포함 할 때까지 $\mathbb{E}[Y\vert X=x]$ . 대조적으로 $\sigma^2_{\epsilon}$ 아무리 커도 줄일 수 없습니다 $\mathcal{H}$ 왜냐하면 $\epsilon\perp X$ .

— 델타 IV
소스

잡음이 돌이킬 수없는 오류 인 경우 돌이킬 수 없습니다. 당신은 어떻게 든 동기를 부여해야합니다, 나는 그것을 직접 할 수 없습니다.

— Carl

2.1.1에서 예는 "혈액 내 일부 약물의 분석"입니다. 아래에 제시 한 첫 번째 예는 바로 그 것입니다. 이 분석에서 소위 측정 할 수없는 측정 오차는 그다지 중요하지 않습니다. 그것은 일반적으로 10000 이상의 이벤트, 피펫 팅 오류 (거의 지수 적으로 분포 된) 및 기타 기술적 오류를 계산하여 감소되는 계산 소음으로 구성됩니다. 이러한 "돌이킬 수없는"오류를 추가로 줄이려면 각 시간 샘플에 대해 세 개의 카운팅 튜브의 중앙값을 사용하는 것이 좋습니다. 되돌릴 수없는 용어는 잘못된 전문 용어입니다. 다시 시도하십시오.

— Carl

@ 델타, 답변 주셔서 감사합니다. 하나의 라이너 "반환 가능한 오류"는 그다지 설득력이 없었을 수도 있지만, 상황과 토론이 주어지면 꽤 좋아 보입니다!

— Richard Hardy

전문 용어 개발의 목적이 사람들을 혼동하는 것이라고 생각하지 않습니다. 독립적으로 오류를 말하고 싶다면

n

$n$ 의 함수 인 오류 대

n

$n$ 무슨 뜻인지 말해봐

— Carl

@DeltaV 저는 환원성이 모호한 가정이라고 생각합니다 (아래 참조).

— Carl

모든 실제 발생이 올바르게 모델링 된 시스템에서 남은 것은 노이즈입니다. 그러나 일반적으로 노이즈보다 데이터에 대한 모델 오류의 구조가 더 많습니다. 예를 들어, 모델링 바이어스와 노이즈만으로는 곡선 잔차, 즉 모델링되지 않은 데이터 구조를 설명하지 않습니다. 설명 할 수없는 분수의 총합은 $1-R^2$ 이것은 알려진 구조의 바이어스와 노이즈뿐만 아니라 물리학의 허위 표현으로 구성 될 수 있습니다. 편견에 의해 우리는 평균을 추정 할 때의 오차만을 의미한다면 $y$ "돌이킬 수없는 오류"는 잡음을 의미하고, 분산은 모델의 시스템 물리적 오류를 의미하며, 바이어스 (제곱)와 시스템 물리적 오류의 합은 특별한 것이 아니며 잡음이 아닌 오류 일뿐입니다. . 특정 상황에서이를 위해 제곱 된 오 등록이라는 용어가 사용될 수 있습니다 (아래 참조). 독립적으로 오류 를 말하고 싶다면 $n$ 의 함수 인 오류 대 $n$ , 그렇게 말해봐. IMHO는 오류를 모두 되돌릴 수 없기 때문에 비 환원성 속성은 그것이 조명하는 것보다 더 혼란스럽게 할 정도로 오도됩니다.

왜 "환원성"이라는 용어를 좋아하지 않습니까? 그것은 환원 의 공리 에서와 같이 자기-참조 적 타우 톨 로지에서 나온다 . 나는 Russell 1919에 동의 한다. “저는 환원의 공리가 논리적으로 필요하다고 믿는 어떤 이유도 보지 못합니다. 이것이 가능한 모든 세계에서 그것이 사실이라고 말하는 것의 의미입니다. 그러므로 논리는 결함이다 ... 모호한 가정이다. "

다음은 불완전한 물리적 모델링으로 인한 구조화 된 잔차의 예입니다. 이것은 스케일링 된 감마 분포, 즉 감마 변이체 (GV)의 보통 최소 제곱 피팅에서 신장 사구체 여과 된 방사성 의약품의 방사능의 혈장 샘플까지의 잔차를 나타낸다 [ 1 ]. 삭제 된 데이터가 많을수록 ( $n=36$ 각 샘플 시간에 대해), 모델 범위가 좋을수록 환원성이 더 많은 샘플 범위에서 저하됩니다.

주목할 것은, 5 분에 첫 번째 샘플을 떨어 뜨릴 때, 초기 샘플을 60 분으로 계속 떨어 뜨리는 것처럼 순차적으로 물리학이 향상된다는 것입니다. 이것은 GV가 결국 약물의 혈장 농도에 대한 좋은 모델을 형성하지만 초기에 다른 일이 진행되고 있음을 보여줍니다.

실제로, 하나가 두 개의 감마 분포와 관련이있는 경우, 하나는 초기, 약물의 순환 전달, 그리고 하나는 기관 제거를 위해, 이러한 유형의 오류, 물리적 모델링 오류는 $1\%$ [ 2 ]. 다음은 그 회선의 예입니다.

후자의 예에서, 제곱근 대 시간 그래프의 경우 $y$ 축 편차는 포아송 노이즈 오류의 의미에서 표준화 된 편차입니다. 이러한 그래프는 적합 오차가 왜곡 또는 뒤틀림으로 인한 이미지 오 등록 인 이미지이다. 그러한 맥락에서, 단지 그 맥락에서만, 오 등록은 바이어스 플러스 모델링 에러이고, 총 에러는 오 등록 + 노이즈 에러이다.

— 칼
소스

실제로, 이것은 위의 분해에 관한 것입니다. 그러나 귀하의 답변은 실제 질문을 다루지 않으므로 주석으로 사용하는 것이 좋습니다. 아니면?

— Richard Hardy

고맙지 만 답변이 주제에서 멀어졌습니다. 실제 질문 사이의 관계를 찾는 데 어려움을 겪고 있습니다.

{Bias}^{2} + Variance

$\text{Bias}^2+\text{Variance}$ ) 그리고이 모든 ...

— Richard Hardy

다시 한번, 당신은 다른 질문에 대답하고 있습니다. 잘못된 질문에 대한 정답은 불행히도 잘못된 답변입니다 (자신에 대한 메모 : 우연히, 저는 어제 학부 학생들에게 이것을 설명했습니다). 나는 표현이 얼마나 의미 있는지 묻지 않고 (ESL 교재를 읽거나 응용 기계 학습에서 일한 사람에게는 의미가 있습니다), 나는 적절한 용어를 요구하고 있습니다. 문제는 규범이 아니라 긍정적입니다. 그리고 그것은 매우 간단하고 매우 구체적입니다.

— Richard Hardy

@RichardHardy 물리학이 없으면 문제를 이해하기가 어려웠습니다. 내 답변을 변경했습니다. 위의 잘못된 등록을 참조하십시오.

— Carl

프로세스를 추정하기 위해 그렇게 할 수 있습니다. 그렇습니다. 이것은 환원 가능한 오류 부분입니다. 그러나 코인 플립이 포함 된 구체적인 이벤트를 예측할 때 코인 플립의 결과를 잘못 예측하는 것과 관련된 오류를 줄일 수있는 방법이 없습니다. 이것은 돌이킬 수없는 오류에 관한 것입니다. 흥미 롭다 : 순전히 결정론적인 세계에서는 정의에 의해 돌이킬 수없는 오류가 없을 것이므로, 세상에 대한 당신의 견해가 완전히 결정 론적이라면, 나는 당신이 무엇을 의미하는지 이해할 것입니다. 그러나 세계는 "통계 학습의 요소"와 통계에서 확률 론적입니다.

— Richard Hardy