변수 선택에 대한보다 명확한 토론


55

배경

저는 의학에서 임상 연구를하고 있으며 몇 가지 통계 과정을 수강했습니다. 선형 / 로지스틱 회귀를 사용하여 논문을 출판 한 적이 없으며 변수 선택을 올바르게하고 싶습니다. 해석 성이 중요하므로 멋진 기계 학습 기술이 없습니다. 나는 변수 선택에 대한 나의 이해를 요약했다. 누군가가 어떤 오해에 대해서도 밝힐 까? 내가 발견 (1) 유사한 이 하나 (2) CV 게시물을하지만, 그들은 아주 완벽하게 내 문제를 대답하지 않았다. 어떤 생각이라도 대단히 감사하겠습니다! 마지막에 3 가지 주요 질문이 있습니다.

문제와 토론

필자의 전형적인 회귀 / 분류 문제에는 200-300 개의 관측치, 15 %의 유해 사례 발생률 (분류시) 및 문헌에서 "통계적으로 유의 한"효과가 있다고 주장되는 40 개 변수 중 25 개에 대한 정보가 있습니다. 도메인 지식에 의한 감각.

모든 사람과 어머니가 단계적 회귀를 사용하는 것처럼 보이기 때문에 "통계적으로 유의미한"따옴표를 사용하지만 Harrell (3)과 Flom (4)은 여러 가지 좋은 이유로 좋아하지 않는 것 같습니다. 이것은 Gelman 블로그 게시물 토론 (5)에 의해 추가로 지원됩니다 . 단계적으로 받아 들일 수있는 유일한 방법은 이것이 실제로 탐색 적 분석이거나 예측에 관심이 있고 교차 검증 체계가 관련된 경우뿐입니다. 특히 많은 의학적 동반 질환이 공선 성으로 고통 받고 연구 결과는 작은 표본 크기로 고통 받기 때문에 저의 이해는 문헌에 많은 오 탐지가있을 것이라는 것입니다. 이것은 또한 잠재적 변수를 포함하는 문헌을 신뢰할 가능성이 적습니다.

또 다른 대중적인 접근 방법은 예측 변수와 독립 변수 사이의 일련의 일 변량 회귀 / 연관을 시작점으로 사용하는 것입니다. 특정 임계 값 미만 (예 : p <0.2). 이 StackExchange 게시물 (6)에 요약 된 이유로 인해 잘못되었거나 적어도 오해의 소지가 있습니다.

마지막으로 머신 러닝에서 널리 사용되는 자동화 된 접근 방식은 L1 (Lasso), L2 (Ridge) 또는 L1 + L2 콤보 (Elastic Net)와 같은 벌칙을 사용하는 것입니다. 내 이해는 이것들이 OLS 또는 로지스틱 회귀와 같은 쉬운 해석을 가지고 있지 않다는 것입니다.

Gelman + Hill은 다음을 제안합니다.

겔맨

내 통계 과정에서 F 테스트 또는 편차 분석을 사용하여 전체 및 중첩 모델을 비교하여 모델 / 변수 선택 변수를 변수별로 수행하는 방법을 기억합니다. 이것은 합리적으로 보이지만 df 당 편차가 가장 큰 변수를 찾기 위해 순차적으로 중첩 된 모델을 체계적으로 피팅하는 것은 쉽게 자동화 될 수있는 것처럼 보이며 (그래서 약간 걱정됩니다) 순서의 문제로 고통받는 것처럼 보입니다. 변수 포함을 테스트합니다. 내 이해는 다중 공선 성과 잔차 그림 (잔여 대 예측)을 조사하여 보완해야한다는 것입니다.

질문 :

  1. Gelman 요약은 갈 길입니까? 그의 제안 된 전략에서 무엇을 추가하거나 변경 하시겠습니까?

  2. 잠재적 인 상호 작용과 변형 (매우 치우침 / 오류 / 생략이 쉬운 것으로 보인다)에 대한 순수한 생각 외에 잠재적 인 것을 발견하는 다른 방법이 있습니까? 다변량 적응 회귀 스플라인 (MARS) 이 나에게 권장되었지만 비선형 성 / 변환이 표준 회귀 모델에서 동일한 변수로 변환되지 않는다는 정보를 받았습니다.

  3. 내 목표가 매우 간단하다고 가정 해 봅시다. "X에 대한 X1의 연관성을 추정하고 싶습니다. X2 만 설명하고 싶습니다." 실제 예측 능력을 참조하지 않고 단순히 Y ~ X1 + X2를 회귀하고 결과를보고하는 것이 적절합니까 (교차 유효성 검증 RMSE 또는 정확도 측정으로 측정 할 수 있습니까)? 이벤트 비율 또는 표본 크기에 따라 또는 R ^ 2가 매우 낮을 경우이 값이 변합니까 (R ^ 2는 초과 피팅으로 늘릴 수 있기 때문에 좋지 않다는 것을 알고 있습니다)? 나는 일반적으로 예측력을 최적화하는 것보다 추론 / 해석에 더 관심이 있습니다.

결론 예 :

  1. "X2에 대한 제어, X1은 X1의 기준 수준에 비해 Y와 통계적으로 유의하게 관련되지 않았다." (물류 회귀 계수)
  2. "X1은 편차의 모델 감소에서 df의 변화에 ​​비해 충분하지 않기 때문에 Y의 통계적으로 유의미한 예측 변수가 아니 었습니다." (편차 분석)

교차 유효성 검사가 항상 필요합니까? 이 경우 SMOTE, 샘플링 등을 통해 클래스 균형 조정을 수행 할 수도 있습니다.



6
(현재 강력한 AI가 등장하기 전에) 자동화가 가능한지 아닌지에 따라 붉은 청어가 떠 오릅니다.
gung-Monica Monica 복원

7
매우 신중한 질문에 +1 리뷰에서 입증 할 수있는 것은 변수 선택을위한 표준 레시피 나 요리 책이 없다는 것입니다. 모든 사람은 서로 다른 접근 방식과 "최상의"사례를 가지고 있습니다. 그런 다음 이론적 모델이나 모집단 모델과 실험적으로 구동되는 모델 사이에는 매우 중요한 차이점이 있습니다. 이러한 프레임 워크는 거의 일치하지 않으며 서로 쉽게 통합 할 수 있습니다. 무언가를 "누락"하는 것에 대한 당신의 관심은 근거가 없지만 현실은 결정적이고 명백한 대답이 단순히 존재하지 않는다는 것입니다. 검토 한 접근 방식은 광범위하게 문서화되어 있으며 하나를 선택하십시오
Mike Hunter

4
Harrell, Flom, & Kolassa; 그때 해결되었습니다.
gung-Monica Monica 복원

4
Re Gelman & Hill의 4 (b) : Harrell, RMS 1st edn, p60 : "이 접근 방식 [단계별]을 많은 경제학자들이 회귀 모델을 개발하는 현명한 방법과 비교함으로써 변수 선택의 마지막 문제를 설명합니다. 중요하지 않은 회귀 계수가 감지 할 수없는 방향을 가진 변수 만 삭제하는 것 " 그리고 나는 Steyerberg가 그것에 종이를 쓸 것이라고 생각한 것 같습니다. [참고를 찾으려고 노력할 것이다.
생기면

답변:


46

Andrew Gelman은 통계 계에서 확실히 존경받는 이름입니다. 그의 원칙은 해당 분야의 다른 "큰 이름"에 의해 수행 된 인과 모델링 연구와 밀접한 관련이 있습니다. 하지만 임상 연구에 관심이 있으시면 다른 출처를 참고해야한다고 생각합니다.

관측 데이터에서 "인과 추론"을 수행하는 것과 변수 사이의 인과 관계를 주장하는 것 사이에 미세한 선이 있기 때문에 "다른 원인과 마찬가지로"단어를 "인과 적"으로 느슨하게 사용하고 있습니다. 우리 모두는 RCT가 인과 관계를 평가하는 주요 방법이라는 데 동의합니다. 우리는 거의 예외를 제외하고 무작위 배정 가정에 따라 그러한 시도에서 아무것도 조정하지 않는다 ( Senn, 2004 ). 관측 연구는 그 중요성과 유용성을 가지고 있으며 ( Weiss, 1989 ) 관측 데이터로부터 추론하기위한 반 사실 기반 접근법은 철학적으로 건전한 접근법으로 받아 들여지고있다 ( Höfler, 2005 ). 그것은 종종 RCT에서 측정 된 사용 효율에 매우 근접해있다 ( Anglemyer, 2014 ).

따라서 관측 데이터로부터의 연구에 중점을 둘 것입니다. : 겔만의 권고 경쟁의 제 요점은 모든 모델의 예측과 단정 인과 관계가 관심의 단일 노출과 관심의 하나의 결과 사이에 지정해야 연역적 . 주요 결과들 사이의 관계에 기초하여 공변량을 던지거나 배제하는 것은 실제로 'Munchausen 's statistics grid'의 특별한 사례를 유도하고있다 ( Martin, 1984 ). 일부 저널 (및 트렌드가 따라 잡고 있음)은 단계별 회귀를 사용하여 최종 모델을 식별하는 기사를 요약하여 거부하며 ( Babyak, 2004 ), 문제는 여기에서도 비슷한 방식으로 보인다고 생각합니다.

모델에서 공변량의 포함 및 제외에 대한 이론적 근거는 다음에서 논의된다 : Judea Pearl 's Causality ( Pearl, 2002 ). 통계적 추론, 회귀 및 다변량 조정의 원리를 이해하는 데 가장 적합한 텍스트 중 하나 일 것입니다. 또한 Sanders와 Greenland의 실질적인 내용, 특히이 권고 목록에서 유감스럽게 생각되는 혼란에 대한 논의 가있다 ( Greenland et al. 1999).). 원인 모델과의 그래픽 관계를 기반으로 특정 공변량에 레이블을 할당 할 수 있습니다. 예후, 혼란, 또는 정밀 변수와 같은 명칭은 통계 모델에서 공변량으로 포함을 보증합니다. 인과 경로를 넘어서는 중재자, 충돌 자 또는 변수는 생략해야합니다. 이러한 용어의 정의는 인과 관계에서 많은 예를 통해 엄격하게 만들어졌습니다.

이 작은 배경을 감안할 때 하나씩 포인트를 다룰 것입니다.

  1. 이것은 일반적으로 하나의 주요 경고에 대한 건전한 접근 방식입니다. 이러한 변수는 결과의 매개자가되어서는 안됩니다. 예를 들어, 흡연과 체력 간의 관계를 검사하고 폐 기능을 조정하는 경우, 체력에 직접적인 영향을 미치는 것은 폐 기능을 줄이는 것이므로 흡연의 영향을 약화시킵니다. 이것은해야 하지세 번째 변수가 관심있는 예측 변수 및 관심 결과에 대한 원인이되는 혼란스러운 상황과 혼동하십시오. 공감자는 모델에 포함되어야합니다. 또한 과도하게 조정하면 분석에서 여러 형태의 바이어스가 발생할 수 있습니다. 중재자와 혼란자는 분석에서 발견 된 것이 아니라 주제-전문가 (SME)로서 귀하에 의해 믿어 진 것으로 인해 간주됩니다. 이벤트 당 시간 또는 로지스틱 분석에서 변수 당 20 개 이하의 관측치 또는 이벤트 당 20 개 관측치가있는 경우 대신 조건부 방법을 고려해야합니다.

  2. 이것은 성향 점수 조정이나 SEM 또는 요인 분석만큼 복잡하지 않은 탁월한 절전 방법입니다. 가능할 때마다이 작업을 수행하는 것이 좋습니다.

  3. 나는 전적으로 동의하지 않습니다. 분석에서 다른 변수를 조정하는 요점은 비교가 가능한 지층을 만드는 것입니다. 혼란스러운 관계를 잘못 지정해도 일반적으로 과도한 분석이 이루어지지 않으므로 생략 된 상호 작용 항의 잔류 혼란은 내 경험상 큰 문제가 아닙니다. 그러나 사후 예측으로 관심있는 예측 변수와 다른 변수 사이의 교호 작용 항을 고려할 수 있습니다. 이것은 가설 생성 절차로서 가능한 모든 결과 (또는 그 부족)를 개선하기위한 것입니다. 잠재적으로 부분 군에 속하거나 b. 두 가지 환경 적 요인 및 / 또는 유전 적 요인 사이의 기계적 상호 작용

  4. 나는 또한 이것에 전적으로 동의하지 않습니다. 확인 분석 기반 회귀 접근 방식과 일치하지 않습니다. 당신은 중소 기업입니다. 분석은 DATA가 아닌 QUESTION에 의해 ​​통보되어야합니다. 인과 모델에 대한 그림 묘사 (DAG 및 Pearl 등의 관련 원칙 사용)를 기반으로 자신이 어떤 일이 일어나고 있다고 생각하는지 자신있게 말한 다음 관심 모델에 맞는 예측 변수를 선택하고 적합하고 토론하십시오. 2 차 분석으로서 만이 접근법을 고려해야합니다.

이 모든 것에서 머신 러닝의 역할은 논란의 여지가 있습니다. 일반적으로 머신 러닝은 예측에 중점을두고 데이터 분석에 대한 개별 접근 방식 인 추론 이 아닙니다 . 불이익 회귀 효과에 대한 영향 해석은 95 % CI 및 계수 추정치가 연관 척도를 제공하는 OLS의 추정치와 달리 비 통계 커뮤니티에서는 쉽게 해석되지 않는 것이 맞습니다.

OLS 모델 Y ~ X의 계수 해석은 간단합니다. 이는 기울기이며, X에서 1 단위가 다른 Y 비교 그룹의 예상되는 차이입니다. 다변량 조정 모델 Y ~ X1 + X2에서는이를 조건부로 수정합니다. 기울기 : 동일한 X2 값을 갖는 X1에서 1 단위 씩 다른 그룹을 비교하는 Y의 예상되는 차이입니다. 기하학적으로 X2를 조정하면 X1과 Y를 비교하는 세 공간의 별개의 지층 또는 "단면"으로 이어지며, 각 지층에 대한 결과를 평균화합니다. R에서 coplot함수는 이러한 관계를 시각화하는 데 매우 유용합니다.


당신의 상세한 해설에 진심으로 감사드립니다-나는 아무도 그런 식으로 내 질문에 대답 한 적이 없었습니다. 나는 지금 당신의 링크를 겪고 있습니다!
sharper_image

1
(+1) 1 번 포인트 : G & H는 이것이 " 예측을 위한 회귀 모델을 구축하기위한 일반적인 원칙"이라고 말하면서 주의를 기울일 필요는 없습니다. (아마도 폐 기능이 좋은 희귀 흡연자들은 실제로는 적합하지 않은 경향이 있습니다.) 인과 모델을 논의 할 때도 같은 요점을합니다 (Ch. 9.7).
Scortchi-Monica Monica 복원

2
(+1) 탁월한 답변 AdamO! 이미 엄청난 양의 작업을 수행 한 것에 대해 감사하면서 언급 한 저널 정책의 현재 채택 상태에 대해 더 알고 싶은 것이 있는지 궁금합니다. 나는 여전히 JAMA 저널에서 '단계적'이라는 단어를 보는 것에 대한 분노에 휩싸인다. 이 정책에 대한 사설을 인용 할 수 있습니까?
David C. Norris

2
@ DavidC.Norris "교육 및 심리 측정"은 문제가되고있는 저널이며, Babyak 기사는 자동화 된 단계적 회귀 분석에 대해서만 설명 합니다. 필자는 일부 기사에서 모델을 "단계적"(자동화되지는 않음)으로 포함하고 다시 시작하는 "실습"접근 방식에 대해 논의하는 저자를 보았습니다. 나는 그들이 사용한 절차를 올바르게 설명했다고 주장하지만 여전히이 접근법에 대해 심각한 논쟁이 있습니다.
AdamO

에이11에이2와이2에이와이에이와이에이와이이자형[와이|에이,]에이12와이

9

이 장엄한 질문과 @AdamO의 포괄적 인 답변은 CV가 인류에 대한 저의 믿음을 정기적으로 갱신하는 주요 예입니다. 여기서는 주로 광범위한 답변을 통해 해당 답변 (및 OP의 질문)을 이해할 수있는 몇 가지 방법을 제공하고자합니다.

첫째, 통계적 실습에 관한 모든 신뢰할만한 조언 은 본질적으로 사전 스크립트가 아닌 프로 스크립트 방식으로 주의 해야한다고 주장했다 . 예를 들어 Gelman & Hill 포인트 # 3은 적극적으로 무언가를 수행하기위한 조언 ( "고려")으로 피상적으로 읽지 만 강력한 효과와의 상호 작용 을 고려 하지 않는 것에 대해주의기울이는 것이 실제로 더 잘 이해됩니다 . (다변량) 테일러 시리즈 확장 에서 가장 중요한 용어를 선택하는 것과 관련된 직관에 대한 호소로 직관적으로 이해 되었으므로 나에게는 반대 의견이 아닙니다.

둘째, OP는 대부분의 박사 생물 통계 학자보다 Adam A의 인용을 따름으로써 더 나은 교육을 받기 위해 바쁘지만 OP는 David A. Friedman의 통계 모델 및 인과 추론 [1]을 선택할 수도 있습니다. 임상 연구에서 회귀가 우리의 주요 도구가되어야한다고 추정했다. 특히 3 장, "통계 모델 및 신발 가죽"을 권장합니다.이 통계는 이전에 공개 된 양식 [2]으로도 제공 됩니다 . (일지의 이름을 밝히지 말고, 핵심 교훈은 John Snow의 콜레라 조사에서 얻은 것입니다. 이 답변 도 자세히 설명되어 있습니다.)

마지막으로-아마도 이것이 실제로 Freedman의 추론 일 것입니다-OP가 제공하는 '결론'의 예는 실제로 논문 의 결과 섹션에 속할 것 입니다. 의사, 미디어, 그리고 점점 더 많은 환자와 평신도 대변인이 영웅적으로 접근 할 수 있도록, 논문 의 실제 결론토론 섹션에 가능한 한 빨리 고려하는 것이 가장 건강 할 것입니다 의학 문헌을 읽기 위해 노력하십시오. 이 종점에 초점을 유지하면 통계 분석의 기술적 작업을 유용하게 구체화 할 수 있으며, 설명하려는 세계의 현실과 그 목표를 달성하기위한 요구에 기초 할 수 있습니다.


  1. Freedman, David, David Collier, Jasjeet Singh Sekhon 및 Philip B. Stark. 통계 모델과 인과 추론 : 사회 과학과의 대화. 케임브리지; 뉴욕 : Cambridge University Press, 2010.

  2. Freedman, David A.“통계 모델과 구두 가죽.” 사회 학적 방법론 21 (1991) : 291–313. doi : 10.2307 / 270939.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.