* 통계 학습 소개 *에서 * 함수 *의 차이는 무엇을 의미합니까?


11

pg. 통계 학습 입문의 34 :

수학적 증명이 책의 범위를 넘어이지만, 예상 시험 MSE는, 주어진 값에 대한 것을 보여 할 수 x0 : 항상 세 가지 기본 수량의 합계로 분해 될 수있는 분산f^(x0) , 제곱 바이어스f^(x0) 에러 조건의 편차 ε . 그건,

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] Variance는 다른 교육 데이터 세트를 사용하여 추정 한 경우 \ hat {f} 의 변화량을 나타냅니다 f^.

질문 : 이후 Var(f^(x0)) 의 분산 나타내는 것으로 보인다 기능을 공식적으로 평균을 무엇?

즉, 나는 임의 변수 X 의 분산 개념에 익숙 X하지만 함수 집합의 분산은 어떻습니까? 이것이 함수의 형태를 취하는 다른 랜덤 변수의 분산으로 생각할 수 있습니까?


6
가 수식에 나타날 때마다 "주어진 값" 에 적용되는 분산 은 자체가 아니라 숫자에 적용됩니다 . 이 수는 임의 변수로 모델링 된 데이터에서 개발 된 것으로 추정되므로 (실수) 임의 변수이기도합니다. 일반적인 분산 개념이 적용됩니다. f^x0 f^(x0)f^
whuber

2
내가 참조. 따라서 는 변화하고 있지만 (다른 훈련 데이터 세트에 따라 다름) 우리는 여전히 자체 의 차이를보고 있습니다. f^f^(x0)
George

이 교과서의 저자는 누구입니까? 나는 주제를 스스로 배우고 싶었고 참조 권장 사항을 크게 감사하겠습니다.
Chill2Macht

3
@WilliamKrinsman이 책은 다음과 같습니다 : www-bcf.usc.edu/~gareth/ISL
Matthew Drury

답변:


13

@whuber와의 통신이 정확합니다.

학습 알고리즘 은 학습 세트를 함수에 맵핑하는 상위 레벨 함수로 볼 수 있습니다.A

A:T{ff:XR}

여기서 는 가능한 훈련 세트의 공간입니다. 이것은 개념적으로 약간 털이 될 수 있지만 기본적으로 모델 학습 알고리즘을 사용한 후 데이터 포인트 주어진 예측을 만드는 데 사용할 수 있는 특정 함수 에서 각 개별 트레이닝 세트 결과가 나타납니다 .Tfx

훈련 세트의 공간을 확률 공간 으로보고 가능한 훈련 데이터 세트의 분포 가있을 경우, 모델 훈련 알고리즘은 함수 값 랜덤 변수가되고 통계 개념을 생각할 수 있습니다. 특히, 특정 데이터 포인트 수정 하면 숫자 값의 랜덤 변수를 얻습니다.x0

Ax0(T)=A(T)(x0)

즉, 먼저 에서 알고리즘을 학습 한 다음 결과 모델을 에서 평가하십시오 . 이것은 확률 공간에서 평범한 구식이지만 다소 독창적으로 구성된 랜덤 변수이므로 그 분산에 대해 이야기 할 수 있습니다. 이것은 ISL에서 나온 공식의 차이입니다.Tx0


5

반복 된 kfold를 사용한 시각적 해석

@Matthew Drury의 답변을 시각적 / 직관적으로 해석하려면 다음 장난감 예제를 고려하십시오.

  • 시끄러운 사인 곡선에서 데이터가 생성됩니다 : "True noise"f(x) +
  • 데이터는 교육 및 테스트 샘플로 나뉩니다 (75 %-25 %)
  • 선형 (다항식) 모델이 학습 데이터에 적합합니다.f^(x)
  • 프로세스는 동일한 데이터를 사용하여 여러 번 반복됩니다 (예 : 스플릿 트레이닝-Sklearm 반복 kfold를 사용하여 무작위 테스트)
  • 이것은 많은 다른 모델을 생성하는데,이 모델에서 각 점 및 모든 점에 대한 평균과 분산을 계산합니다 .x=xi

차수 2와 차수 6의 다항식 모델에 대한 결과 그래프는 아래를 참조하십시오. 첫눈에, 다항식 (빨간색)이 높을수록 분산이 더 큰 것 같습니다.

여기에 이미지 설명을 입력하십시오

빨간색 그래프의 분산이 더 크다고 주장-실험적으로

하자 및 각각 녹색과 빨간색 그래프에 대응하고 밝은 녹색 밝은 빨간색 그래프의 인스턴스이어야. 하자 할 것을 따라 포인트의 수 축 및 (즉, 시뮬레이션 횟수) 그래프의 숫자. 여기에 우리는 이고f^gf^rf^(i)nxmn=400m=200

세 가지 주요 시나리오를 봅니다

  1. 특정 지점 에서 예측 된 값의 분산 이 더 큽니다. 즉x=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. 의 분산은 범위의 모든 점 에서 더 큽니다.(1) {x1,...,x400}(0,1)
  3. 분산은 평균적 으로 더 큽니다 (즉, 일부 점에서는 더 작을 수 있음)

이 완구 예의 경우, 세 가지 시나리오 모두 범위 에서 true를 유지합니다. 이는 상위 다항식 피팅 (빨간색)이 하위 다항식 (녹색)보다 분산이 더 크다는 주장을 정당화합니다.(0,1)

개방 된 결론

위의 세 가지 시나리오가 모두 다를 수있는 것은 아닙니다 . 예를 들어, 빨간색 예측의 분산이 평균보다 크지 만 모든 점에 대해 그렇지 않은 경우 어떻게해야합니까?

라벨의 세부 사항

점을 고려하십시오x0=0.5

  • 오차 막대는 최소 및 최대 사이의 범위입니다.f^(x0)
  • 분산은 에서 계산됩니다.x0
  • 진정한 는 파란색 점선입니다f(x)

그림을 사용하여 개념을 설명하는 아이디어가 마음에 듭니다. 그래도 게시물의 두 가지 측면에 대해 궁금해하며 해결 할 수 있기를 바랍니다. 먼저, 이 도표에 "함수의 변화"가 어떻게 나타나는지 더 명확하게 설명 할 수 있습니까? 둘째, 적색 플롯이 "더 큰 분산"을 나타내거나 심지어 두 플롯이 그러한 단순한 비교를 할 수 있다는 것은 분명하지 않습니다. 위의 빨간색 값의 수직 확산을 고려 예를 들어, 같은 지점에서 녹색 가치의 확산에 그 비교 : 빨간색 것 좀 봐 녹색 것보다 확산. x=0.95,
whuber

내 요점은 높은 정밀도로 플롯을 읽을 수 있는지 여부가 아닙니다. 두 개의 플롯을 비교하는 것의 의미는 하나가 다른 것보다 "높은"또는 "낮은"분산으로 간주 될 수 있다는 것입니다. 의 일부 범위는 예측의 분산이 하나의 플롯에서 더 높고 의 다른 범위의 경우 분산이 더 낮습니다. xx
whuber

네 동의합니다-귀하의 의견을 반영하여 글을 편집했습니다
Xavier Bourret Sicotte
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.