R의 로지스틱 회귀에 대한 대안에 대한 최근의 질문은 randomForest, gbm, rpart, bayesglm 및 일반화 된 가산 모델을 포함한 다양한 답변을 산출했습니다. 이 방법들과 로지스틱 회귀의 실제적이고 해석상의 차이점은 무엇입니까? 로지스틱 회귀와 관련하여 어떤 가정을 만들거나 만들지 않습니까? 가설 검정에 적합합니까? 기타.
R의 로지스틱 회귀에 대한 대안에 대한 최근의 질문은 randomForest, gbm, rpart, bayesglm 및 일반화 된 가산 모델을 포함한 다양한 답변을 산출했습니다. 이 방법들과 로지스틱 회귀의 실제적이고 해석상의 차이점은 무엇입니까? 로지스틱 회귀와 관련하여 어떤 가정을 만들거나 만들지 않습니까? 가설 검정에 적합합니까? 기타.
답변:
면책 조항 : 그것은 질문에 대한 완전한 답변이 아닙니다.
나는 그러한 모든 방법 사이에 구별을 설정하기 전에 고려해야 할 두 가지 수준이 있다고 생각합니다.
다음은 질문과 관련이 있다고 생각되는 몇 가지 사항입니다.
동일한 모델이 사용 가능한 데이터의 서로 다른 부분 집합 (개별 및 / 또는 변수)에 적합하거나 다른 경쟁 모델이 동일한 데이터 세트에 적합한 여러 모델을 고려하는 경우 교차 검증 을 사용하여 피할 수 있습니다 CV가이 특정 경우에 국한되지는 않지만 과적 합 및 모델 또는 기능 선택 수행 (예 : GAM 또는 페널티 GLM 과 함께 사용할 수 있음 ). 또한 전통적인 해석 문제가 있습니다. 더 복잡한 모델은 종종 더 복잡한 해석 (더 많은 매개 변수, 더 엄격한 가정 등)을 의미합니다.
그라데이션 강화 및 RI의는 하나의 의사 결정 트리의 한계를 극복, 덕분에 밀어 누구의 주요 아이디어를보다 정확하고 안정적인 의사 결정 규칙을 구축하기 위해 여러 약한 학습 알고리즘의 출력을 결합하는 것입니다, 그리고 포기할 어디서 "평균"결과 이상 재 샘플링 된 데이터 세트. 대체로 모델에 대한 명확한 사양이 제공되는보다 "고전적인"모델과 비교할 때 종종 일종의 블랙 박스로 간주됩니다 ( 파라미터 , 세미 파라미터 , 비 파라미터 의 세 가지 모델 클래스로 생각할 수 있음 ). 나는 토론이이 다른 스레드 에서 두 가지 문화 : 통계 대 머신 러닝에서 열렸다고 생각합니다 . 흥미로운 관점을 제공합니다.
다음은 기능 선택 및 일부 ML 기술에 대한 몇 가지 논문입니다.
물론 Hastie와 coll. 의 통계 학습의 요소 는 그림과 참고 자료로 가득합니다. 또한 Andrew Moore 의 통계 데이터 마이닝 자습서 를 확인하십시오 .