이 질문은 결정적인 대답을 얻기에는 너무 개방적 일 수 있지만, 그렇지 않을 수 있습니다.
SVM, GBM, 랜덤 포레스트 등과 같은 머신 러닝 알고리즘은 일반적으로 일부 경험 법칙을 넘어서 각 데이터 세트에 맞게 조정해야하는 자유 매개 변수를 갖습니다. 이것은 일반적으로 최상의 일반화 오류를 제공하는 매개 변수 세트에 맞추기 위해 일종의 리샘플링 기술 (부트 스트랩, CV 등)을 사용하여 수행됩니다.
내 질문은, 당신은 너무 멀리 갈 수 있습니까? 사람들은 그리드 검색에 대해 이야기하지만, 이것을 단순히 최적화 문제로 취급하고 가능한 최고의 매개 변수 세트로 드릴 다운하지 않는 이유는 무엇입니까? 나는 이 질문 에서 이것 에 대한 몇 가지 메커니즘에 대해 물 었지만 많은 관심을받지 못했습니다. 질문이 잘못되었을 수도 있지만 질문 자체가 사람들이 일반적으로하지 않는 나쁜 접근 방식을 나타낼 수 있습니까?
나를 괴롭히는 것은 정규화가 없다는 것입니다. 이 데이터 세트에 대해 GBM에서 자라는 가장 좋은 트리 수는 647이고 상호 작용 깊이가 4 인 647이지만 새 데이터에 대해 이것이 사실인지 확신 할 수 있습니다 (새로운 모집단 가정). 훈련 세트와 동일합니까?) 리샘플링을 '수축'할 합리적인 가치가없는 경우 (또는 사전 정보가없는 경우) 리샘플링은 최선을 다하는 것 같습니다. 나는 이것에 대한 이야기를 듣지 못하므로 누락 된 것이 있는지 궁금해합니다.
모델에서 예측력의 모든 마지막 비트를 짜기 위해 많은 반복을 수행하는 것과 관련하여 계산 비용이 많이 듭니다. 따라서 최적화와 모든 비트를 수행 할 시간 / 불만이 있다면 분명히 할 일입니다. 성능 향상의 가치가 있습니다.