머신 러닝에서 Bayes Error는 무엇입니까?


15

http://www.deeplearningbook.org/contents/ml.html 페이지 116에 베이 오류가 설명되어 있습니다.

이상적인 모델은 데이터를 생성하는 실제 확률 분포를 단순히 알고있는 오라클입니다. 이러한 모델조차도 많은 문제에서 여전히 약간의 오류가 발생합니다. 왜냐하면 분포에 약간의 노이즈가있을 수 있기 때문입니다. 지도 학습의 경우, x에서 y 로의 매핑은 본질적으로 확률 론적이거나 y는 x에 포함 된 것 이외의 다른 변수를 포함하는 결정 론적 함수일 수 있습니다. 실제 분포 p (x, y)에서 오라클이 예측하는 오류는 베이 즈 오류라고합니다.

질문

  1. Bayes 오류를 직관적으로 설명해주세요.
  2. 돌이킬 수없는 오류와 어떻게 다릅니 까?
  3. 총 오류 = 바이어스 + 편차 +베이스 오류라고 말할 수 있습니까?
  4. "y는 본질적으로 확률적일 수있다"는 의미는 무엇입니까?

답변:


23

베이 즈 오차는 달성 할 수있는 가장 낮은 예측 오차이며 복구 할 수없는 오차와 동일합니다. 어떤 프로세스가 데이터를 생성하는지 정확히 알면 프로세스가 무작위 인 경우 오류가 계속 발생합니다. 이것은 또한 " 는 본질적으로 확률 적" 이라는 의미 입니다.y

예를 들어, 공정한 코인을 뒤집을 때 결과가 어떤 프로세스 (이항 분포)를 생성하는지 정확히 알 수 있습니다. 그러나 우리가 일련의 코인 플립의 결과를 예측한다면, 프로세스는 본질적으로 랜덤이기 때문에 (즉, 확률 론적) 여전히 오류를 만듭니다.

다른 질문에 대답하기 위해 총 오차가 (제곱) 바이어스, 분산 및 돌이킬 수없는 오차의 합임을 나타내는 것이 맞습니다. 이 세 가지 개념에 대한 이해하기 쉬운 설명은 기사를 참조하십시오 .


-2

에서 https://www.cs.helsinki.fi/u/jkivinen/opetus/iml/2013/Bayes.pdf . 분류 작업의 경우 베이 오류는 다음과 같이 정의됩니다.

minf=Cost(f)

Bayes 분류기는 다음과 같이 정의됩니다. argminf=Cost(f)

따라서 총 오차 = 베이 오차 + 베이 오차 보다 모델이 얼마나 나쁜가 Bias + Variance +베이스 오차는 모델과 "분배 노이즈"의 고유 특성에 따라 달라질 수 있습니다.

"y는 본질적으로 확률적일 수있다"는 의미는 무엇입니까? 예를 들어, 입니다. 그러나 y로 수집 한 것은 항상 로 오염됩니다 . 여기서 따라서 실제 y를 알 수있는 방법은 없습니다. 본질적으로 오염 된. 오라클조차도 정답을 제공합니다.y=f(x)=sin(x)y~=y+ttN(0,σ2)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.