«overfitting» 태그된 질문

변수 간의 복제 가능하고 유익한 관계 대신 모델링 오류 (특히 샘플링 오류)는 모델 적합 통계를 향상 시키지만 parsimony를 줄이고 설명 및 예측 유효성을 악화시킵니다.



1
Kaggle의 개인 리더 보드는 우승 모델의 샘플 외부 성능을 예측하는 좋은 방법입니까?
개인 테스트 세트의 결과를 사용하여 모델을 더 세분화 할 수는 없지만 개인 테스트 세트 결과를 기반으로 수행되는 수많은 모델 중에서 모델을 선택하지 않습니까? 그 과정만으로도 개인 테스트 세트에 과도하게 적합하지 않습니까? "의사 수학 및 금융 자선주의 : 백 테스트 과적 합이 표본 외 성능에 미치는 영향" 에 따르면 Bailey et.al. …

1
통계 학습 이론에서 테스트 세트에 과적 합의 문제가 있습니까?
MNIST 데이터 세트 분류에 대한 문제점을 고려해 봅시다. Yann LeCun의 MNIST 웹 페이지 에 따르면 'Ciresan et al.' Convolutional Neural Network를 사용하여 MNIST 테스트 세트에서 0.23 % 오류율을 얻었습니다. MNIST 교육 세트를 , MNIST 테스트 세트를 , 을 로 사용하여 얻은 최종 가설 및 을 사용하여 MNIST 테스트 세트에 대한 …

2
혼합 모델에서 단일 맞춤 처리
모델이 있다고 가정 해 봅시다. mod <- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different …

2
가방 부족 오류로 인해 임의 포리스트에서 CV가 필요하지 않습니까?
나는 임의의 숲에 상당히 익숙합니다. 과거에는, 나는 항상의 정확성을 비교 한 시험 대에 맞게 에 대한 열차 대에 맞는 어떤 overfitting을 감지 할 수 있습니다. 그러나 나는 여기서 그것을 읽었 습니다 . "임의의 포리스트에서는 교차 검증 또는 별도의 테스트 세트가 필요하지 않으므로 테스트 세트 오류를 ​​편견없이 추정 할 수 있습니다. …

2
랜덤 포레스트에 대해보고 할 훈련 오류는 무엇입니까?
현재 randomForestR 의 패키지를 사용하여 분류 문제에 임의의 포리스트를 적용하고 있으며 이러한 모델의 교육 오류 를보고하는 방법에 대해 잘 모르겠습니다 . 명령으로 얻은 예측을 사용하여 계산하면 내 훈련 오류가 0 %에 가깝습니다. predict(model, data=X_train) X_train훈련 데이터는 어디에 있습니까 ? 관련 질문에 대한 답변에서 , 나는 가방 부족 (OOB) 훈련 오류를 …

2
최적화 : 통계에서 모든 악의 근원?
나는 전에 다음과 같은 표현을 들었다. "최적화는 통계에서 모든 악의 근원"입니다. 예를 들어이 스레드 의 최상위 답변은 모델을 선택하는 동안 너무 적극적으로 최적화 할 위험에 대한 설명입니다. 내 첫 번째 질문은 다음과 같습니다.이 인용문은 특히 누구에게 귀속됩니까? (예 : 통계 문헌에서) 내가 이해 한 바에 따르면,이 진술은 과적 합의 위험을 …

3
회귀 모형이 과적 합한 시점을 탐지하는 방법은 무엇입니까?
작업을 수행하는 사람 일 때 수행중인 작업을 알고 있으면 모델에 과적 합한 시점에 대한 감각이 생깁니다. 우선, 모델의 조정 된 R 제곱에서 추세 또는 악화를 추적 할 수 있습니다. 주요 변수의 회귀 계수 p 값에서 유사한 저하를 추적 할 수도 있습니다. 그러나 다른 사람의 연구를 읽고 자신의 내부 모델 개발 …

1
Train vs Test Error Gap과 과적 합과의 관계 : 상충되는 조언 조정
열차와 테스트 오차를 비교하는 방법, 특히 둘 사이에 간격이있을 경우 처리 방법에 대해 상충되는 조언이있는 것 같습니다. 나에게 충돌하는 것처럼 보이는 두 개의 학교가있는 것 같습니다. 두 사람을 조정하는 방법을 이해하려고합니다 (또는 여기서 누락 된 것을 이해합니다). 생각 # 1 : 열차와 테스트 세트 성능 사이의 간격만으로는 과적 합을 나타내지 …

2
k- 폴드 교차 검증은 훈련 / 검증 / 테스트 세트의 맥락에 어떻게 적합합니까?
나의 주요 질문은 k- 폴드 교차 검증이 훈련 / 검증 / 테스트 세트를 갖는 맥락에서 어떻게 맞는지 이해하려고 노력하는 것과 관련이 있습니다 (그러한 맥락에서 전혀 적합하다면). 일반적으로 사람들은 데이터를 훈련, 검증 및 테스트 세트 (앤드류 응 코스 당 60/20/20의 비율)로 분할하여 검증 세트가 모델 훈련을위한 최적의 파라미터를 식별하는 데 사용된다고 …


1
소규모 데이터 세트에서 LSTM의 과적 합 방지
저는 80 차원의 word2vec와 같은 표현을 사용하여 128 개의 숨겨진 단위를 가진 단일 계층 LSTM을 사용하여 감정 예측에 대한 15000 트윗을 모델링하고 있습니다. 1 에포크 후 하강 정확도 (임의의 = 38 %로 38 %)를 얻습니다. 훈련 정확도가 높아질수록 검증 정확도가 떨어지기 시작합니다. 따라서 정규화 방법을 생각하고 있습니다. 숨겨진 단위 수를 …

3
이론, 적합 또는 다른 것에 기초하여 분포를 선택하는 것이 더 낫습니까?
이것은 철학적 질문에 접해 있지만 더 많은 경험을 가진 다른 사람들이 분포 선택에 대해 어떻게 생각하는지에 관심이 있습니다. 어떤 경우에는 이론이 가장 잘 작동 할 수 있음이 분명해 보입니다 (마우스 꼬리 길이는 아마도 정규 분포 일 것입니다). 많은 경우에 데이터 세트를 설명하는 이론이 없을 수도 있으므로 원래 설명하기 위해 개발 …

3
베이지안 대 MLE, 과적 합 문제
주교의 PRML 서적에서, 초과 적합은 MLE (Maximum Likelihood Estimation)의 문제이며 Bayesian은이를 피할 수 있다고 말합니다. 그러나 과적 합은 모수 추정에 사용 된 방법이 아니라 모형 선택에 대한 문제라고 생각합니다. 즉, 통해 생성되는 데이터 세트 가 있다고 가정 하면 이제 데이터에 맞게 다른 모델 를 선택 하고 알아낼 수 있습니다. 어느 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.