교차 검증 전 정규화


16

k- 폴드 교차 검증을 반복하기 전에 정규화 데이터 (평균이 0이고 표준 편차가 0이 됨)가 과적 합과 같은 부정적인 영향을 미칩니 까?

참고 : 이것은 #cases> total #features 인 상황을위한 것입니다.

로그 변환을 사용하여 일부 데이터를 변환 한 다음 위와 같이 모든 데이터를 정규화하고 있습니다. 그런 다음 기능 선택을 수행하고 있습니다. 그런 다음 선택한 기능과 표준화 된 데이터를 반복 10 배 교차 검증에 적용하여 일반화 된 분류기 성능을 시도하고 추정하며 모든 데이터를 사용하여 정규화하지 못할 수도 있습니다. 해당 접기에 대한 훈련 데이터에서 얻은 정규화 데이터를 사용하여 각 접기에 대한 테스트 데이터를 표준화해야합니까?

모든 의견에 감사드립니다! 이 질문이 명백해 보인다면 사과드립니다.

편집 : 이것을 테스트 할 때 (아래 제안에 따라) CV 이전의 정규화는 CV 내의 정규화와 비교할 때 성능면에서 큰 차이를 만들지 않는 것으로 나타났습니다.

답변:


13

주요 질문에 대답하려면 CV 내에서 확장하는 것이 가장 적합하고 적합합니다. 그러나 분류자가 데이터를 다시 스케일링하는 경우 (적어도 R에서는) 중요하지 않을 것이므로 실제로 중요하지 않을 수도 있습니다.

그러나 교차 검증 전에 기능을 선택하는 것은 큰 NO이며 전체 데이터 세트에서 수행되는 방식에 따라 기능을 선택하므로 과적 합으로 이어집니다. 변환은 실제 데이터 (데이터 유형에 따라 다름)에 의존하지 않고 100 %가 아니라 90 %의 데이터 만 있으면 수행하지 않는 것이기 때문에 외부에서 수행해도 좋습니다. 데이터에 따라 조정되지 않습니다.

귀하의 의견에 대답하기 위해, 그것이 과적 합을 초래할 것인지의 여부는 피처 선택 방식에 달려 있습니다. 우연히 선택하는 이유 (왜 그렇게 하시겠습니까?) 또는 이전의 이론적 고려 사항 (기타 문헌) 때문에 중요하지 않습니다. 그러나 데이터 세트에 따라 달라집니다. 통계 학습의 요소에는 좋은 설명이 있습니다. http://www-stat.stanford.edu/~tibs/ElemStatLearn/에서 무료로 합법적으로 .pdf를 다운로드 할 수 있습니다 .

귀하와 관련된 요점은 다섯 번째 인쇄의 245 페이지 7.10.2 절에 있습니다. 제목은 "교차 유효성 검사를 수행하는 잘못되고 올바른 방법"입니다.


감사합니다-보고 된 유일한 결과가 각 접기에서 선택한 모델 (기능)을 사용하여 얻은 성능에 대한 것이라면 이것이 과적 합을 초래할 수 없습니까? 결국 특정 기능 하위 집합의 일반화 된 성능 만보고합니다.
BGreene

귀하의 의견을 해결하기 위해 답변을 확대했습니다. 링크의 설명이 지금 내가 요리 할 수있는 것보다 낫다고 생각합니다.
Erik

감사합니다. 이는 표준 필터 기반 기능 선택을 사용해서는 안되며 래퍼 기반 기능 선택 또는 이와 동등한 기능을 대신 사용하도록 제안합니다. #Cases> #Features 상황에서 여전히 유효합니까? (259 건, 총 56 개의 기능이 있습니다). 오류 가능성이 적다고 가정합니까?
BGreene

4

교차 유효성 검사는 통계 모델이 아니라 통계 절차의 성능을 평가하는 방법으로 가장 적합합니다. 따라서 편견없는 성능 추정치를 얻으려면 정규화를 포함하는 교차 검증의 각 겹에서 해당 절차의 모든 요소를 개별적 으로 반복해야합니다 . 그래서 나는 각 주름마다 정규화라고 말할 것입니다.

통계 절차가 데이터의 스케일링 및 평균 값에 완전히 영향을받지 않는 경우에만 이것이 필요하지 않습니다.


나는 이것이 좋은 대답이라고 생각하지만, 엄격하지는 않지만 요점을 얻습니다. 의미는 각 접힘에서 정규화하면 정규화가 성능을 바이어스하지 않는다는 것이 보장된다는 것입니다. Dikran은 마지막 줄에서 다른 방법이 있음을 지적했지만 편견을 피할 수있는 다른 방법은없는 것처럼 보였습니다. CV 내부에서 정규화를 수행하면 외부에서 수행하는 것과 달리 바이어스가 증가하지 않습니다. 다른 답변에서 지적했듯이 편견은 어쨌든별로 영향을 미치지 않을 수 있습니다.
Tom Anderson

1

정규화에 두 개의 매개 변수 만 관련되어 있고 문제가되지 않는 좋은 크기의 샘플이 있다고 생각합니다. 변환과 변수 선택 프로세스에 대해 더 관심이 있습니다. 오늘날 10 배 교차 검증이 분노한 것 같습니다. JASA에서 Efron (1983)이 처음 제안한 분류기 오류율 추정에 부트 스트랩 632 또는 632+를 사용하지 않고 나중에 Efron 및 Tibshirani가 632+를 사용한 논문에서 후속 작업을 수행하지 않습니까?


0

개인적으로 .632 방법을 좋아합니다. 기본적으로 대체와 함께 부스트 래핑입니다. 그렇게하고 중복을 제거하면 1000의 입력 세트에서 632 개의 항목을 얻을 수 있습니다.


632 추정기는 말한 것과 다릅니다. 실제로 부트 스트랩의 무게가 0.632 인 두 개의 오류율 추정기의 선형 조합입니다.이자형0추정치 및 0.368을 명백한 오류율로 (재 치환 추정치라고도 함).
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.