교차 검증 구현이 결과에 영향을 줍니까?


9

아시다시피, K-fold 및 random subsampling이라는 두 가지 널리 사용되는 교차 유효성 검사 유형이 있습니다 ( Wikipedia에 설명되어 있음 ). 그럼에도 불구하고, 일부 연구자들은 K- 폴드 CV로 묘사 된 것이 실제로 임의의 서브 샘플링 논문 인 논문을 만들고 출판한다는 것을 알고 있습니다.
물론 그 차이는 눈에 띄지 않으며 내 질문도 있습니다. 한 유형의 결과가 다른 유형과 크게 다른 경우의 예를 생각할 수 있습니까?

답변:


4

다른 예제를 학습하기 때문에 단순히 다른 결과를 얻을 수 있습니다. 두 결과가 예측 가능한 방식으로 다른 알고리즘이나 문제 영역이 있다는 것을 의심합니다.


나는 상당히 다른 결과를 의미했다. 또한 적어도 실제 사례는 없다고 생각합니다. 아직도, 나는 조금 더 기다릴 것이라고 생각합니다.

3

물론 차이는 눈에 띄지 않으며 내 질문도 있습니다. 한 유형의 결과가 다른 유형과 크게 다른 경우의 예를 생각할 수 있습니까?

나는 그 차이가 눈에 띄지 않으며, 특별한 예에서만 눈에 띄게 될 것이라고 확신하지 못한다. 교차 검증 및 부트 스트랩 (서브 샘플링) 방법은 설계 매개 변수에 결정적으로 의존하며, 이러한 이해는 아직 완전하지 않습니다. 일반적으로 k- 폴드 교차 검증 내의 결과 는 폴드 수에 결정적으로 의존하므로 서브 샘플링에서 관찰 한 결과와 항상 다른 결과를 기대할 수 있습니다.

적절한 예 : 고정 된 수의 매개 변수를 가진 실제 선형 모델이 있다고 가정하십시오. k- 폴드 교차 검증 (주어진 고정 k로)을 사용하고 관측치 수가 무한대가되도록하면 k- 폴드 교차 검증은 모형 선택에 대해 무조건적으로 일치하지 않습니다. 즉, 잘못된 모형을 식별합니다. 이 놀라운 결과는 Jun Shao, "Cross-Validation에 의한 선형 모델 선택", Journal of the American Statistical Association , 88 , 486-494 (1993) 때문이지만이 논문에서 더 많은 논문을 찾을 수 있습니다.

일반적으로, 적절한 통계 논문은 결과가 변하지 않기 때문에 교차 검증 프로토콜을 지정합니다. 대규모 데이터 세트에 대해 많은 수의 접기를 선택하는 경우 모델 선택시 바이어스를 설명하고 수정하려고합니다.


아니요, 아니요, 아니요 . 모델 선택이 아니라 기계 학습에 관한 것입니다 .

1
재미있는 구별. 나는 모델 선택이 거의 모든 용어의 의미에서 머신 러닝의 중심이라고 생각했다.
gappy

매개 변수가 거의없고 y와 x가 있고 y = x ^ 2 또는 y인지 여부를 확인하려는 것처럼 매개 변수가 거의없고 데이터에 맞추려고 할 때 모든 것이 사소한 (대부분 선형) 모델에서 작동합니다. = x. 여기서는 수천 개의 매개 변수를 가질 수 있지만 복잡한 휴리스틱으로 인해 여전히 과적 합되지 않는 SVM 또는 RF와 같은 모델의 오류 추정에 대해 이야기합니다.

이 결과는 임의의 수의 독립 변수가있는 일반 선형 모형의 회귀에 유효합니다. 변수는 임의의 학습자가 될 수 있습니다. 중요한 가정은 관측의 수가 무한대로 진행됨에 따라 실제 모델을 설명하는 학습자의 수는 유한하게 유지된다는 것입니다. 이 모든 것이 회귀에 적용되므로 귀하와 같은 분류 작업의 경우 도움이되지 않습니다.
gappy

그렇지 않습니다. GLM은 기계 학습이 아닙니다. 진정한 머신 러닝 방법은 개체 수의 증가와 상관없이 복잡성 수준을 유지할만큼 현명합니다 (물론 충분한 경우). 선형 모델의 경우에도 수렴이 좋지 않기 때문에이 이론 전체가 상당히 나쁩니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.