«out-of-sample» 태그된 질문

모델 구축에 사용되지 않은 일부 "테스트"또는 "홀드 아웃"또는 "샘플 외"데이터 세트에서 모델 성능을 평가하는 관행을 나타냅니다.

8
테스트 데이터가 교육 데이터로 누출되지 않도록하려면 어떻게해야합니까?
예측 모델을 구축하는 사람이 있지만 적절한 통계 또는 기계 학습 원칙에 정통한 사람이 아니라고 가정합니다. 어쩌면 우리는 그 사람이 배우면서 도움을 줄 수도 있고, 또는 그 사람이 최소한의 지식이 필요한 소프트웨어 패키지를 사용하고있을 수도 있습니다. 이제이 사람은 실제 테스트가 샘플 외부 데이터 의 정확도 (또는 다른 메트릭)에서 온 것임을 잘 …

4
사이언스 저널은 '정원 정원 분석'을 승인 했습니까?
적응 형 데이터 분석 의 개념은 데이터에 대해 자세히 알아볼 때 데이터 분석 계획을 변경하는 것입니다. 탐색 적 데이터 분석 (EDA)의 경우, 이것은 일반적으로 좋은 생각입니다 (데이터에서 예기치 않은 패턴을 찾는 경우가 많지만). 단계는 명확하게 정의되고 고급으로 적절히 계획됩니다). 즉, 적응 형 데이터 분석 은 일반적으로 통계학 자의 불만에 대해 …

5
새로운 혁신적인 데이터 마이닝 방법?
다음 발췌문은 Schwager의 헤지 펀드 마켓 위저드 (2012 년 5 월)에서 지속적으로 성공적인 헤지 펀드 관리자 인 Jaffray Woodriff와의 인터뷰 에서 발췌 한 것입니다 . 질문 : "데이터 마이닝에서 사람들이 만드는 최악의 오류는 무엇입니까?": 많은 사람들이 훈련에 샘플 데이터를 사용하고 테스트에 샘플 외부 데이터를 사용하기 때문에 괜찮다고 생각합니다. 그런 다음 …

3
k- 폴드 교차 검증을 사용할 때 테스트 세트가 필요합니까?
k- 폴드 유효성 검사에 대해 읽었으며 작동 방식을 이해하고 싶습니다. 홀드 아웃 방법의 경우 데이터가 세 세트로 분할되며 테스트 세트는 모델 성능을 평가하기 위해 맨 마지막에만 사용되는 반면 검증 세트는 하이퍼 파라미터 등을 조정하는 데 사용됩니다. k-fold 방법에서, 우리는 여전히 최종 테스트 세트를 유지하고 훈련 및 하이퍼 파라미터 튜닝을 위해 …

1
Kaggle의 개인 리더 보드는 우승 모델의 샘플 외부 성능을 예측하는 좋은 방법입니까?
개인 테스트 세트의 결과를 사용하여 모델을 더 세분화 할 수는 없지만 개인 테스트 세트 결과를 기반으로 수행되는 수많은 모델 중에서 모델을 선택하지 않습니까? 그 과정만으로도 개인 테스트 세트에 과도하게 적합하지 않습니까? "의사 수학 및 금융 자선주의 : 백 테스트 과적 합이 표본 외 성능에 미치는 영향" 에 따르면 Bailey et.al. …

4
예측 모델 : 통계는 머신 러닝을 능가 할 수 있습니까? [닫은]
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 현재 통계 / 경제학에 중점을 둔 마스터 프로그램을 따르고 있습니다. 제 주인은 모든 학생들이 3 개월 동안 …

3
홀드 아웃 방법 (데이터를 교육 및 테스트로 분할)이 기존 통계에 사용되지 않는 이유는 무엇입니까?
교실에서 데이터 마이닝에 노출 할 때 모델 성능을 평가하는 방법으로 홀드 아웃 방법이 도입되었습니다. 그러나 선형 모델에서 첫 수업을 들었을 때 이것은 모델 검증 또는 평가의 수단으로 소개되지 않았습니다. 저의 온라인 조사에서도 교차점이 보이지 않습니다. 고전 통계에서 홀드 아웃 방법이 사용되지 않는 이유는 무엇입니까?


4
홀드 아웃 세트를 만드는 가장 적절한 방법은 무엇입니까? 일부 주제를 제거하거나 각 주제에서 관찰을 제거하는 방법은 무엇입니까?
26 개의 기능과 31000 개의 행이있는 데이터 집합이 있습니다. 38 명의 피험자 데이터 세트입니다. 생체 인식 시스템입니다. 그래서 나는 주제를 식별하고 싶습니다. 테스트 세트를 사용하려면 일부 값을 제거해야한다는 것을 알고 있습니다. 그래서 무엇을 더 잘하고 왜? (a) 30 명을 훈련 세트로 유지하고 8 명을 시험 세트로 제거 (b) 38 명의 …

1
랜덤 포레스트를 사용한 모델링에는 교차 검증이 필요합니까?
내가 본 한, 이것에 대한 의견은 다른 경향이 있습니다. 모범 사례는 특히 교차 검증을 사용하여 지시 할 것입니다 (특히 동일한 데이터 세트에서 다른 알고리즘과 RF를 비교하는 경우). 반면, 원본 출처는 모델 훈련 중에 OOB 오류가 계산된다는 사실은 테스트 세트 성능의 지표로 충분하다고 명시하고 있습니다. 비교적 최근 대화에서 Trevor Hastie조차도 "임의의 …

2
표본 외 예측을 개선하지 않는``중요 변수 ''-해석 방법?
많은 사용자에게 매우 기본적이라고 생각되는 질문이 있습니다. 선형 회귀 모델을 사용하여 (i) 여러 설명 변수와 내 응답 변수의 관계를 조사하고 (ii) 설명 변수를 사용하여 내 응답 변수를 예측합니다. 하나의 특정 설명 변수 X가 내 응답 변수에 큰 영향을 미치는 것으로 보입니다. 응답 변수에 대한 표본 외 예측을 목적으로이 설명 변수 …

1
표본 R의 제곱을 계산하는 방법은 무엇입니까?
나는 이것이 아마도 다른 곳에서 논의되었을 것이라는 것을 알고 있지만, 명확한 대답을 찾지 못했습니다. 선형 회귀 모델의 표본 외부 를 계산 하기 위해 공식 를 사용하려고합니다 . 여기서 은 잔차 제곱의 합이고 는 총 제곱합입니다. 훈련 세트의 경우,R2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SSTR2R2R^2SSRSSRSSRSSTSSTSST SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = \Sigma (y - \bar{y}_{train})^2 테스트 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.