강의를 보지 못했기 때문에 발언 내용에 대해서는 언급 할 수 없습니다.
내 $ 0.02 : 리샘플링을 사용하여 우수한 성능을 얻으려면 리샘플링 중에 모든 작업을 이전 대신 수행해야합니다. 이는 PCA와 같은 사소한 작업뿐만 아니라 기능 선택 [1]에도 적용됩니다. 결과에 불확실성이 추가되면 리샘플링에 포함하십시오.
주성분 회귀 분석 : PCA에 이어 일부 성분에 대한 선형 회귀 분석을 고려하십시오. PCA는 매개 변수 (노이즈 포함)를 추정하고 구성 요소 수도 선택해야합니다 (다른 값은 다른 결과가 나옵니다 => 더 많은 노이즈가 발생 함).
체계 1과 함께 10 배 CV를 사용했다고 가정합니다.
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
또는 계획 2 :
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
두 번째 접근법은 PCA에 의한 불확실성, 성분 수의 선택 및 선형 회귀를 반영하는 오차 추정치를 생성해야한다는 것보다 분명해야합니다. 사실상, 첫 번째 계획의 이력서는 그 이전에 무엇인지 모릅니다.
리샘플링을 사용하는 모든 작업을 항상 수행하지는 않지만 성능 추정에 신경 쓰지 않는 경우 (비정상)는 유죄입니다.
두 체계 사이에 많은 차이가 있습니까? 데이터와 전처리에 따라 다릅니다. 중심을 맞추고 크기를 조정하는 경우에는 그렇지 않습니다. 많은 양의 데이터가 있다면 아마도 아닐 것입니다. 훈련 세트 크기가 줄어듦에 따라, 특히 n이 p에 가까울 경우 좋지 않은 추정치가 발생할 위험이 높아집니다.
리샘플링에 감독 기능 선택을 포함하지 않는 것은 (훈련 세트가없는) 정말 나쁜 아이디어라는 경험을 확실하게 말할 수 있습니다. 왜 전처리가 이것에 어느 정도 영향을 미치지 않는지 알 수 없습니다.
@ mchangun : 구성 요소의 수는 튜닝 매개 변수라고 생각할 수 있으며 일반화 가능한 성능 추정치를 사용하여 선택하고 싶을 것입니다. 최소 분산의 X %가 설명되고 리샘플링에 해당 프로세스가 포함되도록 K를 자동으로 선택할 수 있으므로 해당 프로세스의 노이즈를 처리합니다.
맥스
[1] Ambroise, C., & McLachlan, G. (2002). 마이크로 어레이 유전자-발현 데이터에 기초한 유전자 추출에서의 선택 편향. 국립 과학 아카데미의 절차, 99 (10), 6562–6566.