택배 메시지 :
불행히도, 인용 한 텍스트는 접근법 1과 2 사이에서 두 가지를 바꿉니다.
- 접근법 2는 교차 검증 및 데이터 중심 모델 선택 / 조정 / 최적화를 수행합니다.
- 접근법 1은 교차 검증이나 데이터 중심 모델 선택 / 조정 / 최적화를 사용하지 않습니다.
- 데이터 중심의 모델 선택 / 튜닝 / 최적화없이 접근 3 교차 검증은 여기에서 논의 된 맥락에서 완벽하게 실현 가능합니다 (amd IMHO가 더 많은 통찰력을 이끌어 낼 것임)
- 접근법 4, 교차 검증은 없지만 데이터 중심 모델 선택 / 조정 / 최적화도 가능하지만 구성이 더 복잡합니다.
IMHO, 교차 검증 및 데이터 중심 최적화는 모델링 전략을 수립 할 때 완전히 다른 두 가지 결정입니다. 유일한 연결은 당신이 당신의 최적화를위한 기능을 대상으로 교차 검증 추정치를 사용할 수 있다는 것입니다. 그러나 사용할 준비가 된 다른 대상 기능이 있으며 교차 검증 추정의 다른 용도가 있습니다 (중요하게는 모델 검증, 일명 검증 또는 테스트에 사용할 수 있음)
불행하게도 머신 러닝 용어는 IMHO로 현재 허위 연결 / 원인 / 의존성을 암시합니다.
접근 방식 3 (최적화가 아니라 모델 성능 측정에 대한 교차 검증)을 검색하면 다음과 같은 문맥에서 전체 데이터 세트에 대한 "결정"교차 검증과 훈련이 잘못된 이분법이됩니다. 분류기 성능을 측정하기 위해 교차 검증 성능 지수는 전체 데이터 세트에 대해 훈련 된 모델의 추정치로 사용됩니다. 즉 접근법 3에는 접근법 1이 포함됩니다.
이제 두 번째 결정 인 데이터 중심 모델 최적화 여부를 살펴 보겠습니다. 이것이 바로 여기서 중요한 IMHO입니다. 그리고 데이터 중심 모델 최적화를 수행 하지 않는 것이 더 나은 실제 상황 이 있습니다. 데이터 중심 모델 최적화는 비용이 발생합니다. 이를 다음과 같이 생각할 수 있습니다. 데이터 세트의 정보는 뿐만 아니라p모델의 매개 변수 / 계수, 그러나 최적화는 소위 하이퍼 파라미터라는 추가 매개 변수를 추정하는 것입니다. 모델 피팅 및 최적화 / 튜닝 프로세스를 모델 매개 변수에 대한 검색으로 설명하면이 하이퍼 파라미터 최적화는 훨씬 더 큰 검색 공간이 고려됨을 의미합니다. 다시 말해, 접근법 1 (및 3)에서는 이러한 하이퍼 파라미터를 지정하여 검색 공간을 제한합니다. 실제 데이터 세트는 제한된 검색 공간 내에 들어갈 수있을만큼 충분히 크지 만 (충분한 정보를 포함 할 수 있지만) 접근 방법 2 (및 4)의 더 큰 검색 공간에서 모든 매개 변수를 충분히 수정하기에는 충분하지 않습니다.
실제로 필자의 분야에서는 데이터 중심 최적화를 생각하기에 너무 작은 데이터 세트를 처리해야하는 경우가 종종 있습니다. 대신 수행 할 작업 : 데이터 및 데이터 생성 프로세스에 대한 도메인 지식을 사용하여 데이터 및 응용 프로그램의 물리적 특성에 맞는 모델을 결정합니다. 그리고이 내에서도 여전히 모델 복잡성을 제한해야합니다.