반복 된 kfold를 사용한 시각적 해석
@Matthew Drury의 답변을 시각적 / 직관적으로 해석하려면 다음 장난감 예제를 고려하십시오.
- 시끄러운 사인 곡선에서 데이터가 생성됩니다 : "True noise"f(x) +
- 데이터는 교육 및 테스트 샘플로 나뉩니다 (75 %-25 %)
- 선형 (다항식) 모델이 학습 데이터에 적합합니다.f^(x)
- 프로세스는 동일한 데이터를 사용하여 여러 번 반복됩니다 (예 : 스플릿 트레이닝-Sklearm 반복 kfold를 사용하여 무작위 테스트)
- 이것은 많은 다른 모델을 생성하는데,이 모델에서 각 점 및 모든 점에 대한 평균과 분산을 계산합니다 .x=xi
차수 2와 차수 6의 다항식 모델에 대한 결과 그래프는 아래를 참조하십시오. 첫눈에, 다항식 (빨간색)이 높을수록 분산이 더 큰 것 같습니다.
빨간색 그래프의 분산이 더 크다고 주장-실험적으로
하자 및 각각 녹색과 빨간색 그래프에 대응하고 밝은 녹색 밝은 빨간색 그래프의 인스턴스이어야. 하자 할 것을 따라 포인트의 수 축 및 (즉, 시뮬레이션 횟수) 그래프의 숫자. 여기에 우리는 이고f^gf^rf^(i)nxmn=400m=200
세 가지 주요 시나리오를 봅니다
- 특정 지점 에서 예측 된 값의 분산 이 더 큽니다. 즉x=x0Var [{f^(1)r(x0),...,f^(m)r(x0)}]>Var [{f^(1)g(x0),...,f^(i)g(x0)}]
- 의 분산은 범위의 모든 점 에서 더 큽니다.(1) {x1,...,x400}(0,1)
- 분산은 평균적 으로 더 큽니다 (즉, 일부 점에서는 더 작을 수 있음)
이 완구 예의 경우, 세 가지 시나리오 모두 범위 에서 true를 유지합니다. 이는 상위 다항식 피팅 (빨간색)이 하위 다항식 (녹색)보다 분산이 더 크다는 주장을 정당화합니다.(0,1)
개방 된 결론
위의 세 가지 시나리오가 모두 다를 수있는 것은 아닙니다 . 예를 들어, 빨간색 예측의 분산이 평균보다 크지 만 모든 점에 대해 그렇지 않은 경우 어떻게해야합니까?
라벨의 세부 사항
점을 고려하십시오x0=0.5
- 오차 막대는 최소 및 최대 사이의 범위입니다.f^(x0)
- 분산은 에서 계산됩니다.x0
- 진정한 는 파란색 점선입니다f(x)