«cross-validation» 태그된 질문

보류 된 데이터 서브 세트에서 모델 성능을 정량화하기 위해 모델 피팅 중에 데이터 서브 세트를 반복적으로 보류합니다.

10
홀드 아웃 유효성 검사 및 교차 유효성 검사
나에게 홀드 아웃 유효성 검사는 쓸모없는 것 같습니다. 즉, 원래 데이터 세트를 두 부분으로 나누고 (훈련 및 테스트) 테스트 점수를 일반화 척도로 사용하는 것은 다소 쓸모가 없습니다. K- 폴드 교차 검증은 일반화에 대해 더 나은 근사치를 제공하는 것으로 보입니다 (모든 지점에서 학습하고 테스트하므로). 그렇다면 표준 보류 검증을 사용하는 이유는 무엇입니까? …

5
통계 학습에서 iid 가정의 중요성
통계적 학습, 내재적으로 또는 명시 적으로, 하나는 반드시 학습 집합에 있다고 가정 으로 구성되는 N 입력 / 응답 튜플 ( X I , Y I ) 되어 독립적 같은 조인트 분포로부터 인출 P ( X를 , Y ) 과D={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( …

3
계층화 된 교차 검증 이해
계층화 된 교차 검증 과 교차 검증 의 차이점은 무엇입니까 ? 위키피디아의 말 : 에서는 성층 K 배 교차 검증 평균 응답 값의 모든 폴드 대략 동일하도록, 주름이 선택된다. 이분법 적 분류의 경우, 이는 각 접힘이 두 유형의 클래스 레이블과 거의 동일한 비율을 포함한다는 것을 의미합니다. 그러나 나는 여전히 혼란 …

6
능선 회귀는 높은 차원에서 쓸모가 없습니까 ( )? OLS가 어떻게 과적 합에 실패 할 수 있습니까?
예측 변수 및 표본 크기 과 함께 좋은 오래된 회귀 문제를 고려하십시오 . 일반적인 지혜는 OLS 추정기가 능선 회귀 추정기에 의해 초과 적합하고 일반적으로 능가한다는 것입니다.최적의 정규화 매개 변수 를 찾기 위해 교차 유효성 검사를 사용하는 것이 표준 입니다. 여기에서는 10 배 CV를 사용합니다. 설명 업데이트 : 일 때 "OLS …

1
예측이 목표 인 경우 교육 및 테스트 세트에 표준화 / 정규화를 적용하는 방법은 무엇입니까?
모든 데이터 또는 접기 (CV가 적용된 경우)를 동시에 변환합니까? 예 : (allData - mean(allData)) / sd(allData) trainset과 testset을 개별적으로 변환합니까? 예 : (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) 아니면 trainset을 변환하고 testset에서 계산을 사용합니까? 예 : (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) …

2
폴드 교차 검증 에서 최적의 폴드 수 : leave-one-out CV가 항상 최선의 선택입니까?
컴퓨팅 파워 고려 사항을 제외하고, 교차 유효성 검사에서 접기 수 를 늘리면 더 나은 모델 선택 / 검증이 가능합니다 (즉, 접기 수가 많을수록 좋습니다)? 극단적 인 주장을 취하면, 일대일 교차 검증은 폴드 교차 검증 보다 더 나은 모델로 이어질 까요?KKK 이 질문에 대한 몇 가지 배경 : 나는 매우 적은 …

4
교차 검증 기술의 개요
누군가가 그들 사이의 차이점과 각각의 사용 시점에 대한 가이드를 통해 교차 검증 기술에 대한 개요를 알고 있는지 궁금합니다. Wikipedia 에는 가장 일반적인 기술 목록 이 있지만 다른 기술이 있거나 분류법이 있는지 궁금합니다. 예를 들어, 다음 전략 중 하나를 선택할 수있는 라이브러리를 실행했습니다. 잡아 부트 스트랩 K 교차 검증 하나를 떠나 …

3
교차 검증을 사용할 때 하나의 표준 오류 규칙에 대한 경험적 근거
parsimony에 찬성하여 하나의 표준 오류 규칙의 사용을 정당화하는 경험적 연구가 있습니까? 분명히 그것은 데이터의 데이터 생성 프로세스에 달려 있지만, 대량의 데이터 세트를 분석하는 것은 매우 흥미로운 읽기 일 것입니다. "한 가지 표준 오류 규칙"은 교차 유효성 검사를 통해 (또는 일반적으로 임의 추출 기반 절차를 통해) 모델을 선택할 때 적용됩니다. 복잡성 …

3
로서
TL, DR은 : 그것은 그 표시 반대로 조언을 자주 반복하는, 교차 검증 (LOO-CV)두고 온 아웃 -이며,KKK 와 -fold CVKKK (주름의 수)와 동일한NNN (개수 관찰) 훈련의 -있는 일반화 오류의 수익률 추정치 적어도 어떤을위한 변수KKK , 아닌 대부분의 변수를 특정 가정 안정성 (잘 모르겠어요 모델 / 알고리즘, 데이터 세트, 또는 두 가지 …

7
인과 추론에 교차 검증을 사용할 수 있습니까?
모든 상황에서 교차 검증에 익숙하며 예측 정확도를 높이기위한 목적으로 만 사용됩니다. 변수 간의 편견없는 관계를 추정 할 때 교차 검증 논리를 확장 할 수 있습니까? 하지만 이 리처드 버크에 의해 용지가 "최종"회귀 모델의 매개 변수 선택을위한 샘플 밖으로 보류를 사용하는 방법을 보여줍니다 (및 계단식 매개 변수의 선택은 좋은 생각이 아니다 …

5
교차 검증 시계열 분석
R 의 캐럿 패키지 를 사용하여 분류 및 회귀에 대한 예측 모델을 작성했습니다. Caret는 교차 검증 또는 부트 스트래핑을 통해 모델 하이퍼 파라미터를 조정할 수있는 통합 인터페이스를 제공합니다. 예를 들어 분류를 위해 간단한 '가장 가까운 이웃'모델을 구축하는 경우 몇 개의 이웃을 사용해야합니까? 2? 10? 100? Caret은 데이터를 다시 샘플링하고 다른 …

1
중첩 교차 검증이 실제로 필요한 시점은 언제이며 실질적인 차이를 만들 수 있습니까?
교차 검증을 사용하여 모델 선택 (예 : 하이퍼 파라미터 튜닝)을 수행하고 최상의 모델의 성능을 평가하려면 중첩 교차 검증을 사용해야 합니다 . 외부 루프는 모델의 성능을 평가하는 것이고 내부 루프는 최상의 모델을 선택하는 것입니다. 모델은 각 외부 훈련 세트 (내부 CV 루프 사용)에서 선택되며 해당 성능은 해당 외부 시험 세트에서 측정됩니다. …

2
어떤 교차 검증 방법이 가장 좋은지 어떻게 알 수 있습니까?
내 상황에 가장 적합한 교차 유효성 검사 방법을 찾으려고합니다. 다음 데이터는 문제를 해결하기위한 예제 (R)이지만 실제 X데이터 ( xmat)는 서로 상관 관계가 있으며 y변수 ( ymat)를 사용하여 다른 정도와 상관 관계가 있습니다. R 코드를 제공했지만 R에 대한 질문이 아니라 메서드에 대한 질문입니다. XmatX 변수 V1-V100을 ymat포함하고 단일 y 변수 를 …

3
PCA와 열차 / 시험 분할
이진 레이블 집합이 여러 개인 데이터 집합이 있습니다. 각 레이블 집합에 대해 분류기를 훈련시켜 교차 유효성 검사로 평가합니다. 주성분 분석 (PCA)을 사용하여 차원을 줄이려고합니다. 내 질문은 : 전체 데이터 세트에 대해 PCA를 한 번 수행 한 다음 위에서 설명한대로 교차 검증에 더 낮은 차원의 새 데이터 세트를 사용할 수 있습니까? …

2
모델 선택 및 교차 검증 : 올바른 방법
CrossValidated에는 모델 선택 및 교차 검증 주제에 대한 수많은 스레드가 있습니다. 몇 가지가 있습니다 : 내부 대 외부 교차 검증 및 모델 선택 DikranMarsupial의 @ 상단의 대답 에 기능 선택과 교차 검증 그러나 이러한 스레드에 대한 답변은 상당히 일반적이며 교차 검증 및 모델 선택에 대한 특정 접근 방식의 문제를 강조합니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.