캐럿-반복 된 K- 폴드 교차 검증 대 중첩 된 K- 폴드 교차 검증, 반복 된 n 번


16

캐럿 패키지는 여러 기계 학습 모델을 구축하기위한 뛰어난 R 라이브러리이며, 모델 구축 및 평가에 대한 몇 가지 기능이 있습니다. 매개 변수 튜닝 및 모델 학습을 위해 caret 패키지는 방법 중 하나로 'repeatedcv'를 제공합니다.

모범 사례로서 다음과 같이 작동하는 중첩 된 K- 폴드 교차 검증을 사용하여 매개 변수 튜닝을 수행 할 수 있습니다.

  1. 훈련 세트를 'K'서브 세트로 분할
  2. 각 반복에서 모델 교육을 위해 'K-1'하위 집합을 가져오고 모델 테스트를 위해 1 하위 집합 (홀드 아웃 세트)을 유지하십시오.
  3. 또한 'K 빼기 1'훈련 세트를 'K'서브 세트로 분할하고, 매개 변수 튜닝 (그리드 검색)을 위해 새로운 'K 빼기 1'서브 세트 및 '유효 세트'를 반복적으로 사용하십시오. 이 단계에서 식별 된 최상의 매개 변수는 2 단계에서 설정된 홀드 아웃을 테스트하는 데 사용됩니다.

반면에, 우리는 반복 된 K- 폴드 교차 검증이 모델 분산을 찾기 위해 선택한 횟수만큼 1 단계와 2 단계를 반복적으로 반복 할 수 있다고 가정합니다.

그러나 caret 매뉴얼의 알고리즘을 통해 'repeatedcv'방법은 교차 유효성 검사를 반복하는 것 외에도 중첩 K- 폴드 교차 유효성 검사를 수행하는 것처럼 보입니다.

캐럿 열차 알고리즘 https://topepo.github.io/caret/training.html

내 질문은 :

  1. 캐럿 'repeatedcv'방법에 대한 내 설명이 정확합니까?
  2. 그렇지 않은 경우 캐럿 패키지를 사용하는 'repeatedcv'방법으로 중첩 K- 폴드 교차 검증을 사용하는 예를 들어 주시겠습니까?

편집하다:

이 방법론 기사에서는 다양한 교차 검증 전략을 설명하고 비교합니다.

Krstajic D, Buturovic LJ, Leahy DE 및 Thomas S : 회귀 및 분류 모델을 선택하고 평가할 때의 교차 검증 함정 . Cheminformatics 저널 6 (1) : 10. 도이 : 10.1186 / 1758-2946-6-10

나는에 관심이 있어요 "알고리즘 2 : 반복 계층화 중첩 교차 유효성 검사""알고리즘 3 변수를 선택하고 매개 변수 조정을위한 교차 검증 그리드 검색 반복" 캐럿 패키지를 사용합니다.

답변:


2

제시된 (중첩) 알고리즘에는 아무런 문제가 없으며 실제로 다른 데이터 세트의 바이어스-분산 문제에 대해 적절한 견고성으로 성능이 우수 할 것입니다. 그러나 독자는 사용중인 기능이 가장 "최적"인 것으로 가정해야한다고 알 수 없으므로 알 수없는 경우 먼저 해결해야 할 기능 선택 문제가 있습니다.

기능 / 파라미터 선택

덜 편향된 접근 방식은 분류기 / 모델이 피처 / 파라미터 선택과 원격으로 가까이 가지 않도록하는 것입니다. 여우 (분류기, 모델)가 닭을 보호하기를 원하지 않기 때문입니다 (기능, 매개 변수). 기능 (매개 변수) 선택 방법은아르 자형이자형아르 자형-분류 자 / 모델에 의해 수행되는 반복 학습 내에 기능 선택이 번들로 제공됩니다. 반대로 항상 기능을 사용합니다에프나는이자형아르 자형피처 (매개 변수) 선택 바이어스를 최소화하려는 시도로 분류기 / 모델에서 멀리 떨어진 다른 방법을 사용합니다. 기능 선택 (GJ McLachlan) 중에 래핑 및 필터링 및 선택 바이어스를 찾아보십시오.

솔루션이 객체를 다른 세트로 분할하는 객체 파티셔닝 (접기) 방법을 호출하는 주요 기능 선택 문제가 항상 있습니다. 예를 들어, 100 개의 행과 100 개의 열로 데이터 행렬을 시뮬레이션 한 다음 다른 열에서 이진 변량 (0,1)을 시뮬레이션합니다.이를 그룹화 변수라고합니다. 그런 다음 이진 (0,1) 변수를 그룹화 변수로 사용하여 각 열에서 t-tests를 실행하십시오. 100 개의 t- 검정 중 몇 개는 우연히 중요 할 것입니다. 그러나 데이터 매트릭스를 두 배로 나누 자마자12각각의 =50중요한 테스트 수가 줄어 듭니다. 매개 변수 선택 중에 사용할 최적의 접기 수를 결정하여 데이터로이 문제를 해결할 수있을 때까지 결과가 의심 될 수 있습니다. 따라서 각 훈련 과정에서 사용되는 다양한 샘플 크기의 함수로서 홀드 아웃 객체의 예측 정확도를 평가하기위한 일종의 부트 스트랩 바이어스 방법을 설정해야합니다.π=0.1,0.2,0,,0.4,0.5(즉, 학습 중에 사용되는 샘플 크기 증가) 2, 5, 10 등의 다양한 CV 접기와 결합

최적화 / 최소화

함수 근사에 대한 최적화 또는 최소화 문제를 실제로 해결하는 것 같습니다. 와이=에프(엑스1,엑스2,,엑스제이)여기서 회귀 또는 매개 변수가있는 예측 모델이 사용됩니다. 와이지속적으로 조정됩니다. 이를 감안할 때 예측의 바이어스 (선택 바이어스, 바이어스-분산, 테스트 객체에서 훈련 객체로의 정보 유출 등)를 최소화해야 할 필요성을 감안할 때 다음과 같은 군집 지능 방법을 사용하는 동안 CV를 사용하는 것을 고려할 수 있습니다. 입자 떼 최적화 (PSO), 개미 식민지 최적화 등. PSO (Kennedy & Eberhart, 1995 참조)는 학습 중에 매개 변수 공간을 통해 입자가 날아 가면서 입자 사이에 사회 및 문화 정보 교환을위한 매개 변수를 추가합니다. 웜 인텔리전스 방법에 익숙해지면 매개 변수 결정에서 많은 편견을 극복 할 수 있습니다. 마지막으로, 함수 근사에 대한 임의의 포리스트 (RF, Breiman, 기계 학습의 Journ. 참조) 접근 방식이 있는지 모르겠지만,

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.