이것은 아마도 어리석은 질문 일지 모르지만 캐럿이있는 모델을 생성하고 LOOCV
또는 (또는 더 많은 지점까지) 사용 LGOCV
하면 본질적으로 교차 유효성 검사 단계 인 경우 데이터를 기차와 테스트 세트로 분할하는 이점은 무엇입니까 어쨌든?
관련 질문 중 일부를 읽었으며 일부 교차 유효성 검사 방법 (예 : 캐럿 사이트에서 여기에 설명 된 방법 )은 기능 선택을 위한 것임을 제안했습니다 . 그러나 필자의 경우 예측 변수를 제거하려고 시도하는 그룹에 나열되지 않은 randomForest
( method = "rf"
) 및 kernlab
( method = svmRadial
)을 사용 하고 있습니다.
따라서 내 질문은과 같은 것을 사용하는 경우 cross_val <- trainControl(method = "LGOCV", p = 0.8)
내 데이터의 80 %에 대한 교육, 나머지 20 %에 대한 결과 모델 테스트 및 반복하는 방법에 대한 아이디어를 얻는 것과 동일하지 않습니까? 모델이 작동합니까?
그렇다면 데이터를 기차 / 테스트 세트로 분할해야합니까?
추신 : 나는 경험적으로 생성 된 DOE 프로토 타입 (입력을 조정 한 다음 테스트 방법을 사용하여 프로토 타입에 대한 다양한 속성을 측정하는 경질 제품)에 대해 모델을 수행하면서 부분적으로 묻습니다.
따라서 모델링 할 중복 예측 변수 수준이 많은 거대한 데이터 세트가 없습니다.이 경우 데이터 생성 비용이 많이 들기 때문에 각 DOE 관심 지점에서 한 번의 시험을 수행하는 경우가 많습니다. 따라서 정확한 모델에 사용할 수있는 모든 데이터를 사용하고 싶지만 여기서는 분명한 것이 누락되지 않았고 여러 항목을 분할하지 않아 불량 모델을 만드는지 확인하고 싶었습니다.
편집 : @topepo의 질문에 대한 답으로, 공식의 화학적 입력을 조정하여 화합물의 물리적 측정 속성을 모델링하고 있습니다. 실제 응용 프로그램에 대해서는 논의 할 수 없지만 내부 라텍스 페인트의 공식화를 기반으로 한 예를 만들어 보겠습니다. 저는 4-5 개의 화학 물질을 혼합하고 %의 고형물을 가지고 놀며, 중합도를 조정하기 위해 고분자 용액을 가열하는 데 걸리는 시간에 대해 설계된 실험을 진행하고 있습니다.
그런 다음 유변학, 분자량, 페인트 코팅의 경도, 내수성 등을 측정 할 수 있습니다.
우리는 여러 변수의 적절한 복제물을 가지고 있지만 모든 DOE 수준이 정확히 동일하다는 의미에서 실제 복제물은 거의 없습니다. 총 데이터 세트는 ~ 80 개의 관측치이며 아마도 4-5는 정확한 반복입니다. 우리는 15 개의 서로 다른 테스트를 수행했으며, 매번 관찰 할 때마다 5-6 개의 테스트가 수행되었습니다. 일부 응답은 25-50 %의 데이터에 대해 존재합니다.
여기에서 7 개의 예측 변수가 출력 특성에 미치는 영향을 모델링 한 다음 원하는 특성을 제공 할 가능성이 가장 높은 새로운 설계 공간을 대상으로 최적화합니다.
(따라서 나의 질문은 여기있다 . 일단 훈련 된 모델을 가지고 있다면, "역전"을하고 다음 단계를 시도하기 위해 가능한 입력 레벨에서 최상의 추측을 얻기 위해 원하는 응답을 제공하는 것이 좋을 것이다).
data_set1
수행 된 단계를 어떻게 고려 LGOCV
합니까? 내 독서에서 나는 1) caret
튜닝 매개 변수를 반복 data_set1
한 다음 2) 해당 매개 변수를 고정하고 3) 각 p = 0.8
샘플의 # 1의 매개 변수를 사용하여 "하위 모델"을 만들고 data_set1
정확도를 측정하기 위해 나머지 0.2에 대한 예측을 테스트한다고 가정합니다. . 합리적인 요약입니까?