아래에 설명 된 프로세스가 유효하고 수용 가능하며 정당화가 가능한지 알고 싶습니다.
아이디어 :지도 학습 알고리즘은 데이터에 대한 기본 구조 / 분포를 가정하지 않습니다. 하루가 끝나면 포인트 견적을 출력합니다. 어떻게 든 추정치의 불확실성을 정량화하기를 희망합니다. 이제 ML 모델 구축 프로세스는 본질적으로 임의적입니다 (예 : 하이퍼 파라미터 튜닝을위한 교차 검증 및 확률 론적 GBM의 서브 샘플링을위한 샘플링에서). 내 (순진한) 아이디어는 예측의 분포를 생각해 내기 위해이 과정을 반복해서 실행하는 것이며, 예측의 불확실성에 대해 희망적으로 진술 할 수 있습니다.
중요한 경우, 내가 작업하는 데이터 세트는 일반적으로 매우 작습니다 (~ 200 행).
이게 말이 돼?
명확히하기 위해, 나는 실제로 전통적인 의미에서 데이터를 부트 스트랩하지 않습니다 (즉, 데이터를 리샘플링하지 않습니다). 모든 반복에서 동일한 데이터 세트가 사용되며 xval 및 확률 GBM의 임의성을 활용합니다.