모델 피팅 / 트레이닝 및 검증에 사용되는 샘플 데이터의 계산 비율


9

데이터 예측에 사용할 샘플 크기 "N"을 제공했습니다. 데이터를 세분화하여 일부를 사용하여 모델을 설정하고 나머지 데이터를 사용하여 모델을 확인하는 방법에는 어떤 것이 있습니까?

나는 이것에 대한 흑인과 백인의 대답이 없다는 것을 알고 있지만, 어떤 "엄지 규칙"이나 일반적으로 사용되는 비율을 아는 것이 흥미로울 것입니다. 나는 교수 중 한 명이 대학에서 60 %에 대해 모델을 말하고 40 %에 대해 검증 했었다는 것을 다시 알고 있습니다.

답변:


7

당신이 말한 것처럼 흑백 답변은 없습니다. 나는 일반적으로 데이터를 두 부분으로 나누지 않지만 대신 k- 폴드 크로스 검증과 같은 방법을 사용합니다.

k- 폴드 교차 검증에서는 데이터를 무작위로 k 부분으로 나누고 모델을 k-1 부분에 맞추고 왼쪽 부분의 오류를 테스트합니다. 각 부품을 하나씩 빼는 과정을 k 번 반복합니다. 모형 오류의 표시로 각 반복에서 평균 오류를 취할 수 있습니다. 다른 모델의 예측력을 비교하려는 경우 실제로 효과적입니다.

k- 폴드 교차 검증의 한 가지 극단적 인 형태는 테스트를 위해 하나의 데이터 포인트 만 남기고 나머지 모든 포인트에 모델을 맞추는 일반화 된 교차 검증입니다. 그런 다음 각 데이터 포인트를 하나씩 제외하고 프로세스를 n 번 반복하십시오. 나는 일반적으로 일반 교차 검증보다 k- 폴드 교차 검증을 선호합니다 ... 개인적인 선택


2
모델 선택에 풀 세트를 사용하는 CV, 응? 숨겨진 과잉이기 때문에 일반적인 오류입니다 (여전히 Wikipedia조차도 언급합니다). 이를 위해서는 더 높은 수준의 이력서를 작성하거나 약간의 시험을 남겨야합니다.

5

실제로는 데이터의 양, 특정 방법의 비용 및 결과를 정확히 원하는 방법에 따라 다릅니다.

몇 가지 예 :

데이터가 거의없는 경우 교차 검증 (k-fold, leave-one-out 등)을 사용하려고 할 수 있습니다. 모델은 어쨌든 훈련하고 테스트하는 데 많은 리소스를 소비하지 않을 것입니다. 데이터를 최대한 활용하는 좋은 방법입니다

많은 양의 데이터가 있습니다. 아마도 상당히 큰 테스트 세트를 원할 수도 있습니다. 일부 이상한 샘플이 결과에 많은 변화를 줄 가능성은 거의 없습니다. 얼마나 많은 데이터를 가져와야합니까? 그것은 당신의 데이터와 모델에 전적으로 달려 있습니다. 예를 들어 음성 인식에서 너무 많은 데이터 (3000 문장이라고 가정)를 사용하는 경우 실시간 요인 7-10이 일반적이므로 실험에 며칠이 걸립니다. 너무 적게 걸리면 선택한 스피커 (훈련 세트에서 허용되지 않음)에 너무 의존합니다.

또한 많은 경우에 검증 / 개발도 설정하는 것이 좋습니다!


5

1:10 테스트 : 열차 비율은 둥글게 보이기 때문에 인기가 있고, 1 : 9는 10 배 CV로 인해 인기가 있으며, 1 : 2는 둥글고 부트 스트랩을 다시 조립하기 때문에 인기가 있습니다. 때로는 몇 년 전과 같이 몇 년 전과 같이 일부 데이터 별 기준에서 테스트를받습니다.

일반적인 규칙은 다음과 같습니다. 열차가 충분히 커야 정확도가 크게 떨어지지 않아야하며 테스트는 임의의 변동을 막을 수있을 정도로 커야합니다.

여전히 CV를 선호하는데, 이는 또한 오류 분포를 제공하기 때문입니다.


4

k- 폴드 답변의 확장으로서 k의 "일반적인"선택은 5 또는 10입니다. leave-one-out 방법은 너무 보수적 인 모델을 생성하는 경향이 있습니다. 참고로, 다음은 그 사실에 대한 참조입니다.

Shao, J. (1993), Cross-Validation에 의한 선형 모델 선택, 미국 통계 협회 저널, Vol. 88, No. 422, 486-494 쪽


이 논문을 읽었습니까? 그럼에도 불구하고 그것은 선형 모델 (제목조차도 그것을 보여줍니다!)에 대해서만 작동합니다. 그것은 무한한 수의 객체에 대한 점근 적 행동에 관한 것입니다. 100은 충분하지 않습니다.

1
그리고 9 개의 객체로 10 배 교차 검증을하도록하겠습니다.

@mbq : 나는 "정상적인"선택을 말한다. 모든 선택을 의미하는 것은 아닙니다
Albort

@mbq : 나는 신문을 읽었다; Shao는 관측치가 40 개인 시뮬레이션 연구에 대해보고했으며 하위 선택이 적절하지 않은 경우 (전체 기능 세트가 최적 인 경우)를 제외하고 LOOCV가 Monte-Carlo CV보다 성능이 낮은 것으로 나타났습니다. 100은 선형 모델에서 적어도 부분 집합을 선택하기에 충분합니다.
shabbychef

@shabbychef 당신은 나를 여기있어; 첫 번째 의견의 두 번째 주장은 물론 쓰레기입니다. 다른 작품을 염두에두고 지나치게 일반화했습니다. 그럼에도 불구하고, 나는 Shao의 논문이 범위가 선형 모델로 축소 되었기 때문에 Shao의 논문이 일반적인 "LOO fail for large N"에 대한 좋은 참고 자료는 아니라고 주장 할 것이다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.