k- 폴드 교차 검증을 반복하기 전에 정규화 데이터 (평균이 0이고 표준 편차가 0이 됨)가 과적 합과 같은 부정적인 영향을 미칩니 까?
참고 : 이것은 #cases> total #features 인 상황을위한 것입니다.
로그 변환을 사용하여 일부 데이터를 변환 한 다음 위와 같이 모든 데이터를 정규화하고 있습니다. 그런 다음 기능 선택을 수행하고 있습니다. 그런 다음 선택한 기능과 표준화 된 데이터를 반복 10 배 교차 검증에 적용하여 일반화 된 분류기 성능을 시도하고 추정하며 모든 데이터를 사용하여 정규화하지 못할 수도 있습니다. 해당 접기에 대한 훈련 데이터에서 얻은 정규화 데이터를 사용하여 각 접기에 대한 테스트 데이터를 표준화해야합니까?
모든 의견에 감사드립니다! 이 질문이 명백해 보인다면 사과드립니다.
편집 : 이것을 테스트 할 때 (아래 제안에 따라) CV 이전의 정규화는 CV 내의 정규화와 비교할 때 성능면에서 큰 차이를 만들지 않는 것으로 나타났습니다.