«cross-validation» 태그된 질문

보류 된 데이터 서브 세트에서 모델 성능을 정량화하기 위해 모델 피팅 중에 데이터 서브 세트를 반복적으로 보류합니다.

1
기능적 데이터 분석을 언제 / 어디서 사용합니까?
나는 매우 기능적인 데이터 분석 (FDA)의 새로운. 내가 읽고있다: Ramsay, James O. 및 Silverman, Bernard W. (2006), Functional Spring Analysis, 2nd ed., Springer, New York. 그러나 FDA가 언제 어디에서 언제 사용해야하는지 잘 모르겠습니다. 누군가가 특히 의학 연구에서 예를 들어 주시겠습니까? 실제로 FDA를 어디에 / 언제 적용해야하는지 모르겠습니다. 성장 곡선 데이터의 …

2
Cox 비례 위험 모델로 교차 검증을 수행하는 방법은 무엇입니까?
하나의 데이터 세트 (모델 구축 데이터 세트)에서 특정 질병의 발생에 대한 예측 모델을 구성했으며 이제 새 데이터 세트 (유효성 검증 데이터 세트)에서 모델이 얼마나 잘 작동하는지 확인하려고합니다. 로지스틱 회귀로 작성된 모델의 경우 모델 빌딩 데이터 세트에서 얻은 모델 계수를 기반으로 유효성 검사 데이터 세트의 각 사람에 대한 예측 확률을 계산 …

2
Leave-One-Out 교차 검증의 높은 분산
"Leave-one-out"교차 유효성 검사는 훈련 과정이 겹치므로 편차가 크다는 것을 계속해서 읽었습니다. 그러나 나는 그것이 왜 그런지 이해하지 못합니다 : 훈련 세트가 거의 동일하기 때문에 교차 검증의 성능이 정확하게 안정적이어야합니까 (낮은 분산)? 아니면 "분산"개념을 잘못 이해하고 있습니까? 또한 LOO가 편향되지 않는 방법을 완전히 이해하지 못하지만 분산이 높습니다. LOO 추정치가 기대치의 실제 …

1
연구에서 검증 정확도는 높지만 테스트 정확도는 낮 으면 어떻게해야합니까?
기계 학습 연구의 유효성 검사에 대한 특정 질문이 있습니다. 아시다시피, 머신 러닝 체제는 연구원들에게 훈련 데이터에 대한 모델을 훈련시키고 검증 세트에 따라 후보 모델 중에서 선택하고 테스트 세트에 대한 정확성을보고하도록 요청합니다. 매우 엄격한 연구에서 테스트 세트는 한 번만 사용할 수 있습니다. 그러나 논문을 출판하거나 제출하기 전에 테스트 정확도가 최신 결과보다 …


3
음이 아닌 행렬 분해에서 최적의 잠재 요인 수를 선택하는 방법은 무엇입니까?
매트릭스 주어 Vm×nVm×n\mathbf V^{m \times n} , 음수가 아닌 매트릭스 인수 분해 (NMF)는 두 개의 음수가 아닌 행렬 찾은 Wm×kWm×k\mathbf W^{m \times k} 및 Hk×nHk×n\mathbf H^{k \times n} (즉, 모든 요소 ≥0≥0\ge 0 )으로 분해 된 매트릭스를 나타내는 : V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, 예를 들어, 음이 아닌 WW\mathbf …

2
scikit-learn 부트 스트랩 기능이 테스트 세트를 다시 샘플링하는 이유는 무엇입니까?
모델 평가에 부트 스트랩을 사용할 때 항상 가방 외부 샘플이 테스트 세트로 직접 사용되었다고 생각했습니다. 그러나 이것은 더 이상 사용되지 않는 scikit-learnBootstrap 접근법 의 경우가 아닌 것으로 보입니다. 이것에 대한 통계적 추론은 무엇입니까? 이 기술이 백 오브 샘플을 평가하는 것보다 좋은 특정 시나리오가 있습니까?

3
데이터 확대 및 기차 검증 분할을 수행하는 방법은 무엇입니까?
기계 학습을 사용하여 이미지 분류를하고 있습니다. 교육 데이터 (이미지)가 있고 데이터를 교육 및 유효성 검사 세트로 분할한다고 가정합니다. 또한 임의 회전 및 노이즈 주입을 통해 데이터를 확대 (원본 이미지에서 새 이미지 생성)하고 싶습니다. 기능 보강은 오프라인으로 수행됩니다. 데이터 기능 보강을 수행하는 올바른 방법은 무엇입니까? 먼저 데이터를 교육 및 유효성 검사 …

3
생존 분석 문제에 대한 교육, 테스트, 검증
나는 여기에서 다양한 스레드를 탐색했지만 정확한 질문에 대답하지 않았다고 생각합니다. ~ 50,000 명의 학생 데이터와 이탈 시간이 있습니다. 잠재적 인 공변량이 많은 비례 위험 회귀 분석을 수행하려고합니다. 또한 중퇴 / 숙박에 대한 로지스틱 회귀 분석을 수행 할 예정입니다. 주요 목표는 새로운 학생 집단을 예측하는 것이지만, 작년의 집단과 크게 다를 것이라고 …

4
신뢰할 수 없거나 혼란 스럽거나 잘못된 연구 또는 모델이 잘못 사용 된 공중 보건 정책 연구의 사례 연구는 무엇입니까?
데이터가 혼동되는 현재 공중 보건 문제에 대한 문헌 검토를 작성 중입니다. 공중 보건 정책 및 법률에서 무효 또는 혼란스러운 관계 또는 추론이 의도적으로 또는 잘못 사용 된 공중 보건 / 역학 교육에 사용되는 일반적인 역사적 사례 연구는 무엇입니까? 1960 년대 자동차 사망자 급증과 법에 의해 안전 벨트와 결국 에어백이 필요하다는 …

2
최적화 : 통계에서 모든 악의 근원?
나는 전에 다음과 같은 표현을 들었다. "최적화는 통계에서 모든 악의 근원"입니다. 예를 들어이 스레드 의 최상위 답변은 모델을 선택하는 동안 너무 적극적으로 최적화 할 위험에 대한 설명입니다. 내 첫 번째 질문은 다음과 같습니다.이 인용문은 특히 누구에게 귀속됩니까? (예 : 통계 문헌에서) 내가 이해 한 바에 따르면,이 진술은 과적 합의 위험을 …

6
10 배 교차 검증을 위해 데이터 세트를 분할하는 방법
잠김 . 이 질문과 주제는 주제가 다르지만 역사적으로 중요하기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 이제 R데이터 프레임 (트레이닝)이 있습니다. 누구 든지이 데이터 세트를 무작위로 분할하여 10 배 교차 검증을 수행하는 방법을 말해 줄 수 있습니까?

3
R의 부트 패키지에서 cv.glm의 비용 함수는 무엇입니까?
leave-one-out 방법을 사용하여 교차 유효성 검사를 수행하고 있습니다. 이진 응답이 있고 R의 부트 패키지와 cv.glm 함수를 사용하고 있습니다. 내 문제는이 기능의 "비용"부분을 완전히 이해하지 못한다는 것입니다. 내가 이해할 수있는 것은 추정 값을 1 또는 0으로 분류 해야하는지 여부, 즉 분류의 임계 값을 결정하는 함수입니다. 이 올바른지? 그리고 R의 도움으로이 함수를 …

2
기계 학습을위한 시계열의 순서
교차 검증 및 시계열에 대한 RJ Hyndman 의 "연구 팁"중 하나를 읽은 후 여기에서 공식화하려고하는 오래된 질문으로 돌아 왔습니다. 분류 또는 회귀 문제에서 데이터의 순서는 중요하지 않으므로 k 배 교차 검증을 사용할 수 있습니다. 반면 시계열에서 데이터 순서는 매우 중요합니다. 그러나 기계 학습 모델을 사용하여 시계열을 예측할 때 일반적인 전략은 …

2
AIC, BIC 및 GCV : 처벌 적 회귀 분석법에서 결정을 내리는 데 가장 적합한 것은 무엇입니까?
저의 일반적인 이해는 AIC 가 모델의 적합도와 모델의 복잡성 간의 균형을 다루는 것입니다. I씨= 2 k - 2 l n ( L )ㅏ나는씨=2케이−2엘엔(엘)AIC =2k -2ln(L) 케이케이k = 모형의 매개 변수 수 엘엘L = 가능성 베이지안 정보 기준 BIC 는 AIC와 밀접한 관련이 있으며 AIC는 BIC보다 매개 변수 수를 덜 강하게합니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.