많은 독립 변수에서 유의 한 예측 변수 탐지

31

겹치지 않는 두 인구 (환자 및 건강, 총 ) 의 데이터 세트 에서 연속 종속 변수에 대한 중요한 예측 변수 ( 독립 변수 중) 를 찾고 싶습니다 . 예측 변수 사이의 상관 관계가 있습니다. 나는 예측 변수 중 어느 것이 종속 변수를 가능한 정확하게 예측하기보다는 "실제로"종속 변수와 관련이 있는지 알아내는 데 관심이 있습니다. 가능한 많은 접근 방식에 압도되어서 어떤 접근 방식이 가장 권장되는지 묻고 싶습니다. $n=60$ $300$

내 이해에서 단계별 예측 또는 예측 변수 제외는 권장하지 않습니다.
예를 들어 모든 예측 변수에 대해 선형 회귀 분석을 실행하고 FDR을 사용하여 다중 비교를 위해 p- 값을 수정하십시오 (아마도 보수적입니까?)
주성분 회귀 분석 : 개별 예측 변수의 예측력에 대해서는 알 수 없지만 성분에 대해서만 해석 할 수 없으므로 해석하기가 어렵습니다.
다른 제안?

— 조켈
소스

나는 사람들이 L1 정규 회귀를 사용하여 이러한 유형의 일을한다고 들었습니다. 그러나 나는 정답을 쓸만큼 충분히 모른다 ...

— King

2

최상의 권장 사항을 제공하기 위해 "중요 예측 변수"를 식별 한 후 진행 방법을 파악하는 데 도움이됩니다. 가능한 정확하게 결과 를 예측 하려고합니까? 효율적 으로 예측할 수있는 가파른 방법을 찾는다 (예 : 효율적으로 수행 할 수있는 최대 k 개의 예측 변수 집합 사용 , 결과를 "실제로"초래하는 원인 설명 또는 그 밖의 다른 것 설명? 또한 데이터 세트의 크기는 얼마나됩니까?

— rolando2

@rolando : 댓글 주셔서 감사합니다! 질문을 업데이트했습니다. 총 관측치 수는 n = 60 명입니다. 저의 목표는 가능한 한 정확하게 종속 변수를 예측하는 것이 아니라 결과를 "실제로"일으키는 원인을 설명하는 것입니다 (= 후기 연구 / 데이터 세트에서 확인 될 수있는 변수 사이의 관계를 찾을 수 있기를 바랍니다)

— jokel

또한 더미 데이터를 포함한 후속 질문을 게시했습니다. 모든 힌트에 매우 감사하겠습니다. stats.stackexchange.com/questions/34859/…

— jokel

30

올가미 정규화 로 glm을 사용해 보는 것이 좋습니다 . 이렇게하면 변수 수에 대한 모델에 페널티가 추가되고 페널티가 증가하면 모델의 변수 수가 줄어 듭니다.

교차 검증을 사용하여 패널티 매개 변수의 값을 선택해야합니다. R이 있다면 glmnet 패키지를 사용하는 것이 좋습니다 . 사용 alpha=1올가미 회귀, 그리고 alpha=0능선 회귀합니다. 0과 1 사이의 값을 설정하면 올가미와 리지 페널티의 조합을 사용하며 탄성 그물이라고도합니다.

— 잭
소스

4

나는 Zach에 동의한다. David Cassell과 저는 이것에 관한 논문을 썼습니다. 그것은됩니다 단계적으로 중지 .

— Peter Flom-Monica Monica 복원

1

14시 01 분에 능선은 0, 올가미는 1이라고 생각합니다

— King

1

@Zach : 힌트 주셔서 감사합니다. 단일 예측 변수의 중요성을 판단 할 수있는 검정 통계량을 얻는 방법이 있습니까? 결국 "예측 자 X는 종속 변수 Y와 크게 관련이 있습니다"라고 말하고 싶습니다.

— jokel

2

CI와 관련하여 LASSO를 구현하는 다른 R 패키지 매뉴얼 ( cran.r-project.org/web/packages/penalized/vignettes/… , 페이지 18) : "회귀의 표준 오류를 요청하는 것은 매우 자연스러운 질문입니다. 계수 또는 기타 추정 수량 원칙적으로 부트 스트랩을 사용하여 이러한 표준 오차를 쉽게 계산할 수 있지만이 패키지는 의도적으로이를 제공하지 않으므로 표준 오차가 발생하는 등의 치우친 추정에는 표준 오차가 그다지 의미가 없기 때문입니다. 불이익을받은 추정 방법으로부터

— miura

2

@miura 최근에 올가미 저자들도 종이 와 슬라이드 (읽기

— 쉬움

23

Zach의 답 (+1)을 확장하기 위해 선형 회귀 분석에서 LASSO 방법을 사용하면 2 차 함수와 절대 값 함수의 합계를 최소화하려고합니다.

\underset{β}{분} (와이 - 엑스 β)^{티} (와이 - 엑스 β) + \sum_{나는} | β_{나는} |

$\min_{\beta} \; \; (Y-X\beta)^{T}(Y-X\beta) + \sum_i |\beta_i|$

첫 번째 부분은 (이하 금) 에서 2 차이고, 두 번째 부분은 정사각형 곡선 (아래)입니다. 검은 선은 교차 선입니다. $\beta$ LASSO 목적 함수

최소값은 교차 곡선에 있으며, 여기에 2 차 및 정사각형 곡선의 윤곽 곡선으로 표시됩니다.

LASSO의 등고선

축 중 하나에 최소값이 있으므로 회귀에서 해당 변수가 제거되었습니다.

회귀 및 변수 선택 (또는 올가미 정규화라고도 함)에 대해 페널티 사용에 대한 내 블로그 게시물 을 확인할 수 있습니다 . $L1$

— 캠 데이비슨 필론
소스

8

(+1)이지만 블로그 게시물에는 정말 좋습니다. 그래도 정보를 사용할 수있는 가능성이 높아 지므로 여기에서 답변을 다소 확장하면 좋을 것입니다.

— richiemorrisroe

2

얼마나 많은 예측 변수가 중요 할 것이라는 사전의 믿음은 무엇입니까? 그들 중 대부분은 정확히 0의 영향을 미치거나 모든 것이 결과에 영향을 미치거나 일부 변수는 다른 변수보다 적을 가능성이 있습니까?

건강 상태는 어떻게 예측 작업과 관련이 있습니까?

소수의 변수 만 중요하다고 생각되면 스파이크 및 슬래브 (예 : R의 spikeSlabGAM 패키지) 또는 L1을 시도 할 수 있습니다. 모든 예측 변수가 결과에 영향을 준다고 생각하면 운이 좋지 않을 수 있습니다.

그리고 일반적으로 관측 데이터로부터의 인과 추론과 관련된 모든 경고가 적용됩니다.

— scellus
소스

2

무엇을 하든지 예측 변수의 중요 순위에 대한 부트 스트랩 신뢰 구간을 확보하여 데이터 세트로 실제로이를 수행 할 수 있음을 보여주는 것이 좋습니다. 모든 방법이 "진정한"예측 변수를 확실하게 찾을 수 있을지 의심됩니다.

— 프랭크 하렐
소스

1

$n \leq p$

— 앤디 루
소스

보다 구체적으로, n << p 인 경우,이 원래의 탄성 그물 종이를 참조하십시오 : stanford.edu/~hastie/Papers/…

— Cam.Davidson.Pilon

1

n <p 인 경우 LASSO는 최대 n 개의 변수를 선택합니다.

— miura