skl을 사용하여 작성된 임의의 포리스트 회귀 분석이 있으며 임의의 시드를 다른 값으로 설정하여 다른 결과를 생성합니다.
LOOCV를 사용하여 어떤 시드가 가장 잘 작동하는지 확인하면 이것이 유효한 방법입니까?
1
사람들은 경쟁에서 그렇게합니다. 학계에서는 정당화하기 어려울 것입니다.
—
Firebug
극단적 인 시나리오를 생각해 보자 : 우리는 게임을한다 : 우리는 2 개의 오지와 더 높은 액수를 얻는 사람을 굴린다. 그러나 실제로 주사위를 두 번 굴릴 수 있습니다. 그게 공정한가요? 랜덤 시드 설정은 재현 가능한 연구의 필수 요소이며 항상 수행 해야 함을 지적하겠습니다 . 그렇다고해서 "좋아하는 씨앗"을 찾을 때까지 다양한 씨앗을 시험해야한다는 의미는 아닙니다.
—
usεr11852
@ usεr11852 현재 허용되는 답변에 대한 나의 의견은 어떻습니까? 이것이 kmeans와 같은 무작위 재시작과 다른지 확실하지 않습니다. R의 표준 함수에 임의의 재시작이 내장되어있는 시점까지, 우리가하는 첫 번째 실행을 강제로 받아 들여야한다고 생각하는 사람은 아무도 없습니다. 어쩌면 모델보다 100km를 실행하는 것으로 간주하지 않는 한 단 하나의 최고의 클러스터링
—
jld
아니요. 실제 임의성에 대한 과적 합의 정의처럼 보입니다.
—
마크 화이트
@Chaconne : 적절한 검증이 필요하다는 점을 전적으로지지합니다. 즉, 두 가지 사용 사례에 핵심적인 차이가 있다고 생각합니다. k- 평균 (또는 일반적으로 확률 적 최적화)의 경우 우리는 매개 변수의 "최적의 세트"를 찾고 CV의 경우 "대표 세트"를 관리합니다 ". 초기의 경우 우리는 "우리가 얼마나 잘 될 수 있는지"를 보여 주려고 노력하는 반면, 후자의 경우에는 "우리가 얼마나 잘 될 것인가"를 보여 주려고 노력합니다.
—
usεr11852