회귀 모형에서 변수를 어떻게 선택합니까?

변수 선택에 대한 기존의 접근 방식은 새로운 반응을 예측하는 데 가장 크게 기여하는 변수를 찾는 것입니다. 최근에 나는 이것에 대한 대안을 배웠다. 예를 들어 제약의 임상 시험에서와 같이 치료 효과를 결정하는 모델링 변수에서 변수는 정 성적으로 상호 작용 한다고합니다.다른 것들을 고정시킨 채로 그 변수의 변화가 치료가 가장 효과적인 변화를 만들 수 있다면 치료를 통해. 이러한 변수는 항상 효과에 대한 강력한 예측 변수는 아니지만 개별 환자의 치료를 결정할 때 의사에게 중요 할 수 있습니다. 그녀의 PhD 논문에서 Lacey Gunter는 예측에 기반을 둔 알고리즘에 의해 놓칠 수있는 질적으로 상호 작용하는 변수를 선택하는 방법을 개발했습니다. 최근에 저는이 방법을 로지스틱 회귀 및 Cox 비례 위험 회귀 모델을 포함한 다른 모델로 확장하는 작업에 참여했습니다.

두 가지 질문이 있습니다.

이 새로운 방법의 가치에 대해 어떻게 생각하십니까?
전통적인 방법의 경우 어떤 접근 방식을 선호하십니까? AIC, BIC, Mallows Cp, F와 같은 기준은 단계적으로, 앞뒤로 변수를 입력하거나 삭제합니다 ...

이에 대한 첫 번째 논문은 Gunter, L., Zhu, J 및 Murphy, SA (2009)에서 나왔습니다. 정 성적 상호 작용을위한 변수 선택 . 통계 방법론 doi : 10, 1016 / j.stamet.2009.05.003.

다음 논문은 Gunter, L., Zhu, J. 및 Murphy, SA (2011)에 게재되었습니다. 가족 별 오류율을 통제하면서 개인화 된 의약에서의 질적 상호 작용의 다양한 선택 . Biopharmaceutical 통계의 전표 21, 1063-1078.

다음은 변수 선택 Gunter, L., Chernick, MR 및 Sun, J. (2011)에 대한 특별한 문제에 나타났습니다. 치료 선택에 대한 회귀 변수 선택을위한 간단한 방법 . 파키스탄 통계 및 운영 연구 저널 7 : 363-380.

저널 웹 사이트에서 논문을 찾을 수 있습니다. 기사를 구매해야 할 수도 있습니다. 이 기사에 대한 pdf 파일이있을 수 있습니다. Lacey와 나는 방금이 주제에 대한 논문을 완성했으며, 올해 말 SpringerBrief로 출판 될 것입니다.

regression feature-selection

— 마이클 R. 체 르닉
소스

어쩌면 내가 따르지 않을 것입니다- 효과 수정을 의심 해야하는 선험적 이유가 있다면 이러한 새로운 방법이 모델 선택을위한 "후보"변수 목록의 상호 작용 항을 포함하여 어떻게 다른가?

— Macro

(1)이 질문에서 하나 이상의 줄이 없어진 것 같습니다. "단계적으로, 앞뒤로 ..."(2) 모델 식별 및 변수 선택이 여기에서 광범위하게 논의되었습니다. 예를 들어 + model + variable + selection을 검색 하면이 시점에서 145 개의 스레드가 표시됩니다. 검색 범위를 좁 히면 두 번째 질문에 대답 할 수 있습니다. (3) 첫 번째 질문에 대한 답변을 용이하게하기 위해이 연구에 대한 링크 또는 명시 적 참조를 제공 할 수 있습니까?

— whuber

이것은 치료와 상호 작용하는 변수를 포함시키는 문제입니다. 그러나 단순한 상호 작용이 아니라 정 성적 상호 작용입니다. 두 라인을 상호 작용하려면 병렬이 아니어야합니다. 정 성적으로 상호 작용하려면 변수가 정의 된 간격으로 교차해야합니다. 따라서 아이디어는 질적으로 상호 작용하는 변수를 찾는 것입니다. 이는 적합 또는 예측을 향상시키는 변수 선택 및 교호 작용 항과 다릅니다.

— Michael R. Chernick

답변을 주셔서 감사합니다. Michael 아마도 제기에 대한 중요한 점은이 사이트가 있다는 것이다 되지 토론 사이트, 오히려 Q & A 사이트. 그와는 약간 다른 의사 소통 방식이 있습니다. FAQ는이를 자세히 설명합니다. 때때로 스레딩이 약간 손실 될 수 있지만 일단 일반적인 방식에 대해 조금 더 경험을 쌓으면 실제로 놀랍게도 드 rare니다. 건배.

— 추기경

마이클, 그렇습니다. SE 시스템은 익숙해 져서 완벽하지는 않습니다. 그러나 그것은 의미가 있고 일관됩니다. 우리가 목표로하는 한 가지는 지속적인 개선입니다 . 목록 서버 및 게시판과 달리 질문 (및 답변)은 수정 될 수 있습니다. 이것은 예상됩니다. 궁극적으로, 우리는 스레드가 주석 스레드를 참조하지 않고 자체적으로 독립적 인 단일 질문으로 시작하기를 원합니다. 그런 다음 하나 이상의 잘 작성되고 기여도가 높은 정식 답변을 계속해야합니다. 이 이상을 염두에두고 @cardinal의 제안이 더 합리적 일 수 있습니다.

— whuber

Gelman and Hill, 회귀 및 다중 레벨 / 계층 모델 pg 69를 사용한 데이터 분석을 참조하십시오. 모델 선택에 대한 섹션이 있습니다. 그녀는 완전히 괜찮은 질문 기반 접근법을 사용하고 있지만 논문에서 왜 자신이 모델에서 한 일을 포함했는지를 정당화해야합니다. "이러한 변수가 항상 효과를 예측하는 것은 아니지만 개별 환자의 치료를 결정할 때 의사에게 중요 할 수 있습니다." 그녀가 왜 이러한 예측 변수가 포함되어야 하는지를 정당화하는 한 괜찮습니다. 개인적으로 저는이 방법을 선호합니다. 그래서 여기 2에 대한 대답 이옵니다.
단계적으로, 앞으로, 뒤로 나는 블랙 박스라고 생각합니다. 세 개 모두를 통해 모형을 실행하면 동일한 예측 변수에 도달하지 않습니다. 따라서 사용할 관점에서 명확한 대답이 없습니다. AIC 또는 BIC는 모델을 비교하는 데 사용할 수 있습니다.

— 로렌 굿윈
소스