배경
저는 의학에서 임상 연구를하고 있으며 몇 가지 통계 과정을 수강했습니다. 선형 / 로지스틱 회귀를 사용하여 논문을 출판 한 적이 없으며 변수 선택을 올바르게하고 싶습니다. 해석 성이 중요하므로 멋진 기계 학습 기술이 없습니다. 나는 변수 선택에 대한 나의 이해를 요약했다. 누군가가 어떤 오해에 대해서도 밝힐 까? 내가 발견 이 (1) 유사한 이 하나 (2) CV 게시물을하지만, 그들은 아주 완벽하게 내 문제를 대답하지 않았다. 어떤 생각이라도 대단히 감사하겠습니다! 마지막에 3 가지 주요 질문이 있습니다.
문제와 토론
필자의 전형적인 회귀 / 분류 문제에는 200-300 개의 관측치, 15 %의 유해 사례 발생률 (분류시) 및 문헌에서 "통계적으로 유의 한"효과가 있다고 주장되는 40 개 변수 중 25 개에 대한 정보가 있습니다. 도메인 지식에 의한 감각.
모든 사람과 어머니가 단계적 회귀를 사용하는 것처럼 보이기 때문에 "통계적으로 유의미한"따옴표를 사용하지만 Harrell (3)과 Flom (4)은 여러 가지 좋은 이유로 좋아하지 않는 것 같습니다. 이것은 Gelman 블로그 게시물 토론 (5)에 의해 추가로 지원됩니다 . 단계적으로 받아 들일 수있는 유일한 방법은 이것이 실제로 탐색 적 분석이거나 예측에 관심이 있고 교차 검증 체계가 관련된 경우뿐입니다. 특히 많은 의학적 동반 질환이 공선 성으로 고통 받고 연구 결과는 작은 표본 크기로 고통 받기 때문에 저의 이해는 문헌에 많은 오 탐지가있을 것이라는 것입니다. 이것은 또한 잠재적 변수를 포함하는 문헌을 신뢰할 가능성이 적습니다.
또 다른 대중적인 접근 방법은 예측 변수와 독립 변수 사이의 일련의 일 변량 회귀 / 연관을 시작점으로 사용하는 것입니다. 특정 임계 값 미만 (예 : p <0.2). 이 StackExchange 게시물 (6)에 요약 된 이유로 인해 잘못되었거나 적어도 오해의 소지가 있습니다.
마지막으로 머신 러닝에서 널리 사용되는 자동화 된 접근 방식은 L1 (Lasso), L2 (Ridge) 또는 L1 + L2 콤보 (Elastic Net)와 같은 벌칙을 사용하는 것입니다. 내 이해는 이것들이 OLS 또는 로지스틱 회귀와 같은 쉬운 해석을 가지고 있지 않다는 것입니다.
Gelman + Hill은 다음을 제안합니다.
내 통계 과정에서 F 테스트 또는 편차 분석을 사용하여 전체 및 중첩 모델을 비교하여 모델 / 변수 선택 변수를 변수별로 수행하는 방법을 기억합니다. 이것은 합리적으로 보이지만 df 당 편차가 가장 큰 변수를 찾기 위해 순차적으로 중첩 된 모델을 체계적으로 피팅하는 것은 쉽게 자동화 될 수있는 것처럼 보이며 (그래서 약간 걱정됩니다) 순서의 문제로 고통받는 것처럼 보입니다. 변수 포함을 테스트합니다. 내 이해는 다중 공선 성과 잔차 그림 (잔여 대 예측)을 조사하여 보완해야한다는 것입니다.
질문 :
Gelman 요약은 갈 길입니까? 그의 제안 된 전략에서 무엇을 추가하거나 변경 하시겠습니까?
잠재적 인 상호 작용과 변형 (매우 치우침 / 오류 / 생략이 쉬운 것으로 보인다)에 대한 순수한 생각 외에 잠재적 인 것을 발견하는 다른 방법이 있습니까? 다변량 적응 회귀 스플라인 (MARS) 이 나에게 권장되었지만 비선형 성 / 변환이 표준 회귀 모델에서 동일한 변수로 변환되지 않는다는 정보를 받았습니다.
내 목표가 매우 간단하다고 가정 해 봅시다. "X에 대한 X1의 연관성을 추정하고 싶습니다. X2 만 설명하고 싶습니다." 실제 예측 능력을 참조하지 않고 단순히 Y ~ X1 + X2를 회귀하고 결과를보고하는 것이 적절합니까 (교차 유효성 검증 RMSE 또는 정확도 측정으로 측정 할 수 있습니까)? 이벤트 비율 또는 표본 크기에 따라 또는 R ^ 2가 매우 낮을 경우이 값이 변합니까 (R ^ 2는 초과 피팅으로 늘릴 수 있기 때문에 좋지 않다는 것을 알고 있습니다)? 나는 일반적으로 예측력을 최적화하는 것보다 추론 / 해석에 더 관심이 있습니다.
결론 예 :
- "X2에 대한 제어, X1은 X1의 기준 수준에 비해 Y와 통계적으로 유의하게 관련되지 않았다." (물류 회귀 계수)
- "X1은 편차의 모델 감소에서 df의 변화에 비해 충분하지 않기 때문에 Y의 통계적으로 유의미한 예측 변수가 아니 었습니다." (편차 분석)
교차 유효성 검사가 항상 필요합니까? 이 경우 SMOTE, 샘플링 등을 통해 클래스 균형 조정을 수행 할 수도 있습니다.