«cross-validation» 태그된 질문

보류 된 데이터 서브 세트에서 모델 성능을 정량화하기 위해 모델 피팅 중에 데이터 서브 세트를 반복적으로 보류합니다.

1
중첩 교차 검증 후 최종 모델을 작성하고 확률 임계 값을 조정하는 방법은 무엇입니까?
먼저, 여기 , 여기 , 여기 , 여기 , 여기 에서 이미 오랫동안 논의 된 질문을 게시 한 것에 대해 사과드립니다이전 주제를 재가열합니다. 나는 @DikranMarsupial 이이 주제에 대해 게시물과 저널 논문에 길게 쓴 것을 알고 있지만 여전히 혼란스럽고 비슷한 게시물 수를 판단하면 다른 사람들이 이해하기 어려워합니다. 또한 혼란에 추가 한이 …

2
예측이 아닌 모델링에만 관심이있는 경우 정규화가 도움이 될 수 있습니까?
예측이나 예측이 아닌 모형 매개 변수 추정 (및 해석)에만 관심이있는 경우 정규화가 도움이 될 수 있습니까? 새 데이터에 대한 좋은 예측을 내리는 것이 목표 인 경우 정규화 / 교차 유효성 검사가 얼마나 유용한 지 잘 알고 있습니다. 그러나 만약 당신이 전통적인 경제학을하고 있고 당신이 관심있는 모든 것을 추정하는 것이라면 ββ\beta? …

1
교차 검증 (CV)에 기반한 예측 구간
교과서와 유튜브 강연에서 나는 부스팅과 같은 반복 모델에 대해 많은 것을 배웠지 만 예측 간격을 도출하는 것에 대해서는 아무것도 보지 못했습니다. 교차 검증은 다음에 사용됩니다. 모델 선택 : 다른 모델을 사용 해보고 가장 적합한 모델을 선택하십시오. 부스팅의 경우 CV를 사용하여 튜닝 파라미터를 선택하십시오. 모델 평가 : 선택한 모델의 성능 추정 …

2
베이지안 모델에서 교차 검증의 안정성
k-fold cross-validation (k = 5)을 사용하여 JAGS에 Bayesian HLM을 피팅하고 있습니다. 매개 변수 추정치가 모든 접힘에 걸쳐 안정적 인지 알고 싶습니다 . 가장 좋은 방법은 무엇입니까?ββ\beta 한 가지 아이디어는 의 사후 차이를 찾고 0이 차이의 95 % CI에 있는지 확인하는 것입니다. 즉, 의 95 % 간격에서 0입니다 (그리고 모든 접기 …

6
데이터 세트 샘플의 하이퍼 파라미터 튜닝이 나쁜 생각입니까?
이진 분류 (SVM, 로지스틱 회귀, 랜덤 포레스트 등)를위한 여러 분류기를 훈련하는 140000 개의 예와 30 개의 기능에 대한 데이터 세트가 있습니다. 많은 경우에 그리드 또는 랜덤 검색을 사용하는 전체 데이터 세트에 대한 하이퍼 파라미터 튜닝은 시간이 너무 많이 걸립니다. 나는 다음 기술을 사용하기 시작했다 하위 샘플 내 데이터 세트 획득 …

4
데이터를 교육 및 테스트 세트로 분할하는 것만으로는 충분하지 않은 이유
분류기의 성능에 액세스하려면 데이터를 훈련 / 테스트 세트로 분할해야한다는 것을 알고 있습니다. 그러나 이것을 읽으십시오 : SVM에 대해 수동으로 설정해야하는 C 설정과 같은 추정기의 다른 설정 (“하이 파라미터”)을 평가할 때 추정기가 최적으로 수행 될 때까지 매개 변수를 조정할 수 있으므로 테스트 세트에 과적 합의 위험이 여전히 있습니다. 이런 식으로 테스트 …

1
LOOCV 공식 증명
James et al.의 통계 학습 에 이르기까지 Leave-One-Out Cross-Validation) 추정치는 여기서 입니다.MSEI=(Y는I - Y I)(2)CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 증거가 없으면 식 (5.2)에 최소 제곱 또는 다항식 회귀의 경우 (한 변수에 대한 회귀에 적용되는지 여부는 알 수 없음) 여기서 " 는 원래 최소 제곱 피팅 의 번째 적합 값 ( …


5
cv.glmnet 결과의 다양성
cv.glmnet예측 변수를 찾는 데 사용 하고 있습니다. 내가 사용하는 설정은 다음과 같습니다. lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] 메이크업에 확인 결과는 재현 I 있습니다 set.seed(1). 결과는 매우 다양합니다. 결과가 얼마나 변수인지 확인하기 위해 정확히 동일한 코드 100을 실행했습니다. 98/100 런에서 하나의 특정 예측 변수가 항상 선택되었습니다 (때로는 그 자체 만 가능합니다). …

3
기차와 테스트로 나누기 전이나 후에 전가?
N ~ 5000의 데이터 세트가 있고 적어도 하나의 중요한 변수에서 약 1/2이 누락되었습니다. 주요 분석 방법은 Cox 비례 위험입니다. 다중 대치를 사용할 계획입니다. 또한 기차와 테스트 세트로 나눌 것입니다. 데이터를 분할 한 다음 별도로 대치해야합니까? 중요하다면 PROC MI에서 사용할 것 입니다 SAS.

2
K- 폴드 CV를 몇 번 반복해야합니까?
나는 우연히 이 스레드 그런데 좋은 대답 및 참조 - 부트 스트랩과 교차 검증의 차이를 찾고 있습니다. 내가 지금 궁금 것은, 내가 몇 번 분류의 정확성을 계산하기 위해 반복 10 배 CV의 말을 수행 할 수 있다면 N 내가 그것을 반복해야합니까? n 은 접기 수에 의존 합니까 ? 샘플 사이즈는? …

1
특이 치를 드러내 기 위해 평균과 표준 편차를 하나만 남겨 둘 수 있습니까?
정규적으로 데이터를 분산했다고 가정합니다. 데이터의 각 요소에 대해 평균에서 얼마나 많은 SD가 있는지 확인하고 싶습니다. 데이터에 특이 치가있을 수 있지만 (하나만 가능하지만 2 ~ 3 일 수도 있음),이 특이 치는 기본적으로 내가 찾고있는 것입니다. 현재보고있는 요소를 평균 및 SD 계산에서 일시적으로 제외하는 것이 합리적입니까? 내 생각은 그것이 평균에 가까워지면 아무런 …

4
교차 검증 및 파라미터 튜닝
교차 검증 결과가 정확히 무엇인지 알려주는 사람이 있습니까? 그것은 단지 평균 정확도입니까 아니면 매개 변수가 조정 된 모델을 제공합니까? 교차 검증이 매개 변수 조정에 사용된다고 들었습니다.

5
최고의 SVM 메타 파라미터를 찾는 빠른 방법 (그리드 검색보다 빠름)
대기 오염 물질을 단기 예측하기 위해 SVM 모델을 사용하고 있습니다. 새 모델을 훈련 시키려면 SVM 모델 (C, 감마 등)에 적합한 메타 파라미터를 찾아야합니다. Libsvm 문서 (및 내가 읽은 많은 다른 책들)는 그리드 검색을 사용하여 이러한 매개 변수를 찾는 것을 제안합니다. 따라서 기본적으로 특정 세트에서 이러한 매개 변수의 각 조합에 대한 …

2
Platt의 스케일링을 사용하는 이유는 무엇입니까?
과도하게 샘플링 된 데이터를 사용하여 SVM 또는 의사 결정 트리의 신뢰도를 매핑하는 등지도 학습의 확률로 신뢰 수준을 보정하려면 한 가지 방법은 Platt의 스케일링을 사용하는 것입니다 (예 : 부스팅에서 교정 확률 확보 ). 기본적으로 로지스틱 회귀를 사용하여 를 로 매핑 합니다. 종속 변수는 실제 레이블이고 예측 변수는 보정되지 않은 모델의 신뢰도입니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.