답변:
http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf의 "7.10.2 잘못되고 올바른 교차 검증 방법"을 살펴 보는 것이 좋습니다 .
저자는 누군가가 다음을 수행하는 예를 제공합니다.
이는 모든 데이터에 대해 EDA를 수행하고 (예 : 훈련 및 테스트) EDA를 사용하여 "좋은"예측 변수를 선택하는 것과 매우 유사합니다.
저자는 이것이 왜 문제가되는지 설명합니다. 교차 검증 된 오류율은 인위적으로 낮아서 좋은 모델을 발견했다고 오해 할 수 있습니다.
따라서 종속 변수에 영향을 미치는 독립 변수를 식별하고 싶습니까?
그런 다음 두 가지 방법 모두 실제로 권장되지는 않습니다.
연구 질문을 정의한 후 이론을 개발해야합니다. 즉, 문헌을 사용하면 영향을 미칠 변수를 식별해야합니다 (이유를 설명 할 수 있어야 함).
테스트 데이터에 EDA를 적용하는 것이 잘못되었습니다.
교육은 최고의 모델을 만들기 위해 정답을 조사하는 프로세스입니다. 이 과정은 훈련 데이터에 대한 코드 실행에만 국한되지 않습니다. EDA의 정보를 사용하여 사용할 모델 결정, 매개 변수 조정 등 은 교육 과정의 일부 이므로 테스트 데이터에 액세스 할 수 없어야합니다. 따라서 테스트 데이터 만 사용하여 모델 성능을 확인하십시오.
또한 테스트하는 동안 모델의 성능이 좋지 않다는 사실을 깨닫고 다시 모델 조정으로 돌아 가면 좋지 않습니다. 대신 훈련 데이터를 둘로 나눕니다. 하나는 훈련에 사용하고 다른 하나는 모델을 테스트하고 조정하는 데 사용하십시오. 테스트 세트와 유효성 검사 세트의 차이점 은 무엇입니까?를 참조하십시오 .
이 답변 의 단락 이후 . Hastie는 p.245를 자세히 설명합니다 .
"이 예에서 교차 검증을 수행하는 올바른 방법은 다음과 같습니다.
- 샘플을 무작위로 K 교차 검증 배 (그룹)로 나눕니다.
- 각 폴드에 대해 k = 1, 2,. . . , K
(a) 폴드 k에있는 샘플을 제외한 모든 샘플을 사용하여 클래스 레이블과 상당히 강한 (단 변량) 상관 관계를 나타내는 "좋은"예측 변수의 하위 집합을 찾습니다.
(b)이 예측 변수의 부분 집합 만 사용하여 폴드 k의 표본을 제외한 모든 표본을 사용하여 다변량 분류기를 만듭니다.
(c) 분류기를 사용하여 폴드 k의 샘플에 대한 클래스 라벨을 예측하십시오. "
전체 데이터 세트에서 EDA를 수행합니다. 예를 들어 Leave-one-Out 교차 검증을 사용하는 경우 EDA 는 교육 데이터 세트 에서만 어떻게 수행 합니까? 이 경우 모든 관찰은 최소한 한 번은 훈련과 홀드 아웃입니다.
따라서 아닙니다. 전체 샘플의 데이터에 대한 이해를 형성합니다. 산업 시설에 있다면 더욱 분명합니다. 회사의 이해 당사자들에게 데이터의 추세와 일반적인 설명을 보여 주어야하며 전체 샘플에서이를 수행해야합니다.