«model-selection» 태그된 질문

모델 선택은 일부 세트에서 어떤 모델이 가장 잘 수행되는지 판단하는 문제입니다. 많이 사용되는 방법에는 , AIC 및 BIC 기준, 테스트 세트 및 교차 검증이 있습니다. 어느 정도 기능 선택은 모델 선택의 하위 문제입니다. R2


11
AIC 또는 BIC를 다른 것보다 선호하는 이유가 있습니까?
AIC와 BIC는 추정 된 매개 변수의 수에 대해 벌점을 적용한 모형 적합을 평가하는 방법입니다. 내가 알기로, BIC는 AIC보다 무료 매개 변수에 대해 모델에 더 많은 불이익을가합니다. 기준의 엄격 성을 기반으로 한 선호를 넘어서, BIC보다 AIC를 선호하거나 그 반대의 다른 이유가 있습니까?

3
머신 러닝 문제가 희망이 없다는 것을 아는 방법?
표준 기계 학습 시나리오를 상상해보십시오. 큰 다변량 데이터 세트에 직면하고 있으며 데이터에 대해 상당히 모호합니다. 당신이해야 할 일은 가지고있는 것을 기반으로 일부 변수에 대한 예측을하는 것입니다. 평소와 같이 데이터를 정리하고 기술 통계를보고 일부 모델을 실행하고 교차 검증하는 등 여러 번 시도한 후에 여러 모델을 시도하고 시도해도 아무런 효과가 없으며 결과가 …

8
자동 모델 선택을위한 알고리즘
자동 모델 선택을위한 알고리즘을 구현하고 싶습니다. 나는 단계적 회귀를 할 생각이지만 아무것도 할 것입니다 (선형 회귀를 기반으로해야합니다). 내 문제는 방법론이나 오픈 소스 구현을 찾을 수 없다는 것입니다 (Java에서 깨우고 있습니다). 내가 생각하는 방법은 다음과 같습니다. 모든 요인의 상관 행렬을 계산 서로 관련성이 낮은 요소를 선택하십시오 t-stat가 낮은 요인 제거 다른 …

6
k- 겹 교차 검증 후 예측 모델을 선택하는 방법은 무엇입니까?
K- 폴드 교차 검증을 수행 한 후 예측 모델을 선택하는 방법이 궁금합니다. 이것은 어색하게 표현 될 수 있으므로 K- 폴드 크로스 밸리데이션을 실행할 때마다 K 서브셋의 훈련 데이터를 사용하고 K 개의 다른 모델로 끝납니다. K 모델 중 하나를 선택하는 방법을 알고 싶습니다.이를 누군가에게 제시하고 "이 모델은 우리가 생산할 수있는 최고의 …

5
교차 유효성 검사 후 전체 데이터 세트를 사용한 교육?
교차 유효성 검사 후 전체 데이터 세트 를 학습 하는 것이 항상 좋은 생각 입니까? 또 다른 방법으로 넣어, 그것은과 훈련 괜찮 모든 내 데이터 세트의 샘플 및 하지 이 특정 피팅 여부를 확인 할 수있는 overfits ? 문제에 대한 배경 지식 : 매개 변수화 된 모델 패밀리 가 있다고 …

2
우리는 p-hacking에 대해 얼마나 알고 있습니까?
p- 해킹 ( "데이터 준설" , "스누핑"또는 "낚시")이라는 문구 는 결과적으로 인위적으로 통계적으로 유의미한 다양한 종류의 통계적 과실을 말합니다. "더 중요한"결과를 얻는 방법에는 여러 가지가 있습니다. 패턴이 발견 된 데이터의 "흥미로운"부분 집합 만을 분석하는 것 ; 다중 테스트 , 특히 사후 테스트에 적합하게 조정하지 못하고 수행되지 않은 테스트를보고하지 않은 경우; …

3
모델 선택을위한 중첩 교차 검증
모델 선택을 위해 어떻게 중첩 교차 검증을 사용할 수 있습니까? 온라인에서 읽은 내용에서 중첩 CV는 다음과 같이 작동합니다. 내부 CV 루프가 있으며 그리드 검색을 수행 할 수 있습니다 (예 : 사용 가능한 모든 모델 (예 : 하이퍼 파라미터 / 기능 조합)에 대해 K- 폴드 실행) 외부 CV 루프가 있는데, 여기서 …

14
왜 견고하고 저항력있는 통계가 고전 기술을 대체하지 않았습니까?
데이터를 사용하여 비즈니스 문제를 해결할 때 고전 통계를 과소 평가하는 최소한 하나의 주요 가정이 유효하지 않은 것이 일반적입니다. 대부분의 경우 아무도 그러한 가정을 확인하지 않아도되므로 실제로 알 수 없습니다. 예를 들어, 많은 일반 웹 메트릭이 "정규 분포"에 비해 "긴 꼬리"라는 사실은 당연히 문서화되어 당연한 것으로 간주됩니다. 또 다른 예를 들자면, …

5
단계별 회귀에 대한 현대적이고 쉽게 사용되는 대안은 무엇입니까?
약 30 개의 독립 변수가있는 데이터 세트가 있으며 GLM (Generalized Linear Model)을 구성하여 변수와 종속 변수 간의 관계를 탐색하려고합니다. 나는이 상황에 대해 배운 방법, 단계적 회귀가 이제 통계적 죄로 간주된다는 것을 알고 있습니다. 이 상황에서 어떤 현대적인 모델 선택 방법을 사용해야합니까?

6
2016 년에 실제로 필요한 예측 모델링을위한 변수 선택?
이 질문은 몇 년 전 CV에서 1) 훨씬 더 나은 컴퓨팅 기술 (예 : 병렬 컴퓨팅, HPC 등) 및 2) 새로운 기술 (예 : [3])을 고려하여 다시 게시 할 가치가있는 것으로 보입니다. 먼저, 어떤 맥락. 목표가 가설 검정이 아니라 효과 추정이 아니라 보이지 않는 검정 세트에 대한 예측이라고 가정합시다. 따라서 …

2
왜 세 개의 파티션입니까? (훈련, 검증, 테스트)
모델을 대규모 데이터 세트에 맞추려고 할 때 일반적인 조언은 데이터를 교육, 검증 및 테스트 데이터 세트의 세 부분으로 분할하는 것입니다. 이는 일반적으로 모델에 세 가지 "수준"매개 변수가 있기 때문입니다. 첫 번째 "매개 변수"는 모델 클래스 (예 : SVM, 신경망, 임의 포리스트)이고 두 번째 매개 변수 세트는 "규정 화"매개 변수 또는 …

2
변수 선택에 대한보다 명확한 토론
배경 저는 의학에서 임상 연구를하고 있으며 몇 가지 통계 과정을 수강했습니다. 선형 / 로지스틱 회귀를 사용하여 논문을 출판 한 적이 없으며 변수 선택을 올바르게하고 싶습니다. 해석 성이 중요하므로 멋진 기계 학습 기술이 없습니다. 나는 변수 선택에 대한 나의 이해를 요약했다. 누군가가 어떤 오해에 대해서도 밝힐 까? 내가 발견 이 (1) …

3
AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC — 상호 교환 가능합니까?
에 p. PRNN 브라이언 리플리 (Brian Ripley)의 34 명은 "AIC는 Akaike의 약자라고 일반적으로 믿어 지지만 Akaike (1974)에 의해"정보 기준 "으로 명명되었다"고 언급했다. 실제로 AIC 통계를 소개 할 때 Akaike (1974, p.719)는 다음과 같이 설명합니다. "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc …

3
로그 변환 응답이있는 선형 모델과 로그 링크가있는 일반화 된 선형 모델
에서 본 논문 제목 "일반화 선형 모델 APPLIED TO 의료 데이터 중 선택"저자는 쓰기 : 일반화 된 선형 모형에서 평균은 반응 자체를 변환하는 대신 링크 함수에 의해 변환됩니다. 두 가지 변환 방법은 결과가 매우 다를 수 있습니다. 예를 들어, 로그 변환 된 반응의 평균은 평균 반응의 로그와 같지 않습니다 . …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.