LASSO로 기능 선택을 위해 데이터를 준비하기 위해 결 측값을 처리하는 방법은 무엇입니까?


11

내 상황 :

  • 작은 샘플 크기 : 116
  • 이진 결과 변수
  • 설명 변수의 긴 목록 : 44
  • 설명 변수는 내 머리 꼭대기에서 나오지 않았습니다. 그들의 선택은 문헌에 근거했다.
  • 대부분의 경우 샘플과 대부분의 변수에 결 측값이 있습니다.

선택된 기능 선택에 접근 : LASSO

R의 glmnet 패키지는 데이터 세트에 누락 된 값이 있기 때문에 glmnet 루틴을 실행할 수 없습니다. 누락 된 데이터를 처리하는 다양한 방법이있는 것 같습니다. 그래서 알고 싶습니다.

  • LASSO는 내가 사용할 수있는 대치 방법에 제한을 두나요?
  • 대치 방법에 가장 적합한 방법은 무엇입니까? 이상적으로는 SPSS (바람직하게는) 또는 R에서 실행할 수있는 방법이 필요합니다.

업데이트 1 : 아래 답변 중 일부에서 대치 방법을 고려하기 전에 더 기본적인 문제를 다루었다는 것이 분명해졌습니다. 여기에 새로운 질문을 추가하고 싶습니다. 대답은 '해당되지 않는'값과 그룹 올가미의 사용법을 처리하기 위해 코딩을 상수 값으로 제안하고 새 변수를 생성하는 것입니다.

  • 그룹 LASSO를 사용하는 경우 연속 예측 변수 및 범주 예측 변수에 제안 된 방법을 사용할 수 있습니까? 그렇다면 새 카테고리를 만드는 것과 같다고 가정합니다. 편향이 발생할 수 있다는 점에주의해야합니다.
  • R의 glmnet 패키지가 그룹 LASSO를 지원하는지 아는 사람이 있습니까? 그렇지 않다면 누구도 로지스틱 회귀와 결합하여 다른 것을 제안 할 것입니까? 그룹 LASSO를 언급하는 몇 가지 옵션이 CRAN 저장소에서 찾을 수 있습니다. 제 경우에 가장 적합한 제안은 무엇입니까? 아마도 SGL?

이것은 내 이전 질문에 대한 후속 조치입니다 ( 로지스틱 회귀 분석을 수행하기 위해 원래의 긴 목록에서 변수의 하위 집합을 선택하는 방법은 무엇입니까? ).

OBS : 저는 통계학자가 아닙니다.


(1) 대치에 대한 최선의 접근 방식은 결 측값의 비율 및 패턴, 변수 간의 관계 및 결 측값의 이유에 대해 준비한 가정에 따라 다릅니다. (2) LASSO에 입력을 제공하기 위해 임의의 단일 대치 방법을 사용할 수 있습니다. 대치가 결과에 미치는 영향을 평가하는 데 어려움이 있습니다. 여러 대치와 LASSO를 결합하는 방법을 모르지만 (다른 사람이 할 수없는) 다른 대치 실행 결과를 비공식적으로 비교하면 (동일한 예측 변수가 선택되어 있습니까?) 여전히 유익합니다.
Scortchi-Monica Monica 복원

@ Scortchi : 누락 된 값의 대부분은 '해당 없음'카테고리에 속합니다. 예 : 가변적 인 '가계 성인 여성 연령'에서 성인 남성이 미망인 인 경우. 실제로, 나는 여기서 한 걸음 물러서야 할 것 같습니다 : 연속 변수의 0 값을 결측 값으로 취급해야합니까? 예 : 0 세의 교육, 14 세에서 60 세 사이의 0 가구 구성원.
당황 함

가정에 대해 알려진 사실이 아니라 결석 한 여성에 대해 알려지지 않은 사실로 취급하고자하는 상황을 상상하기는 어렵습니다. 0에 대한 질문은 이해하기 어렵습니다. 예를 들어, 몇 년 동안 교육을받을 수없는 가치가 없는지, 아니면 0을 사용하여 결 측값을 코딩 할 수 있습니까? (그리고 어떻게 알 수 있습니까?) 0을 누락을 나타내는 것으로 취급 할 일반적인 이유는 없습니다 .
Scortchi-Monica Monica 복원

@ Scortchi : 여성 연령 변수에 대해, 나는 당신이 무엇을 의미하는지 봅니다. 그러나 문제는 다음과 같습니다. NA가 아닌 경우 부재 여성 사례를 어떻게 코딩합니까? 제로에 대해 : 예, 정확히 내 질문이었습니다. 분명하지 않으면 죄송합니다. 나는 프로그램이 제로 값을 처리하는 데 약간의 문제가있을 수 있으며 내가 의미하는 것을 '이해'할 수 없다고 생각했습니다.
당황

상수 값으로 코딩하고 존재 유무에 대한 표시기 변수를 도입 할 수 있습니다 (& 그룹 LASSO 사용). LASSO 또는 다른 회귀 프로그램이 예측 변수에 대해 0 값을 잘못 처리해야하는 이유는 없습니다. [이를 잘못 받아들이지 말아라. 그러나 이것은 매우 기본적인 질문이다. 이것이 재미 있으면 간단한 문제로 시작하고 싶거나 실제로는 통계 전문가와 상담하고 싶을 수도있다.]
Scortchi-Monica Monica 복원

답변:


11

연속 형 예측 변수 에 '해당 사항 없음'값이 포함 된 경우 다음 두 변수를 사용하여 코딩하는 것이 유용합니다.x

x1={cwhen x is not applicablexotherwise

여기서 는 상수이며 &c

x2={1when x is not applicable0otherwise

반응에 대한 선형 예측 변수를 다음과 같이 가정합니다.

η=β0+β1x1+β2x2+

어떤 해결

η=β0+β1x1+

를 측정 할 때x

η=β0+β1c+β2+

x가 '적용되지 않을 때'. 의 선택 은 임의적이며 & 차단 또는 기울기 의 추정에 영향을 미치지 않습니다 . 는 때와 비교하여 '해당되지 않음' 인 의 효과를 설명합니다 .cβ0β1β2xx=c

이것은 의 알려지지 않은 값에 따라 반응이 변할 때 적합한 접근법이 아닙니다. '결측'그룹의 변동성이 부풀려지고 혼란으로 인해 편향된 다른 예측 자의 계수 추정치입니다. 결 측값을 대치하는 것이 좋습니다.x

LASSO를 사용하면 두 가지 문제가 발생합니다.

  1. 의 선택은 적용된 수축량이 계수 추정치의 크기에 따라 달라 지므로 결과에 영향을줍니다.c
  2. & 가 선택한 모델의 둘 다 또는 둘 다에 있는지 확인해야합니다 .x1x2

& 구성된 그룹과 함께 LASSO 그룹을 사용하면이 두 가지를 모두 해결할 수 있습니다 . -norm 페널티는 정규화 된 행렬 의 -norm에 적용됩니다. . (범주 예측 변수는 LASSO 그룹의 포스터 하위 항목입니다. 비정규 회귀 분석에서 자주 수행되는 것처럼 '해당 사항 없음'을 별도의 수준으로 코딩하면됩니다.) Meier et al (2008), JRSS B, 70 , 1, " 로지스틱 회귀 분석을위한 그룹 올가미 " & grplasso .x1x2L1L2[x1 x2]


R의 glmnet 패키지가 그룹 LASSO를 지원하는지 아는 사람이 있습니까? 그렇지 않다면 누구도 로지스틱 회귀와 결합하여 다른 것을 제안 할 것입니까? 그룹 LASSO를 언급하는 몇 가지 옵션이 CRAN 저장소에서 찾을 수 있습니다. 제 경우에 가장 적합한 제안은 무엇입니까? 아마도 SGL?
의아해

따라서 LASSO 그룹을 사용하면 연속 예측 변수와 범주 예측 변수에 제안한 방법을 사용할 수 있습니까?
Puzzled

5

다중 대치는 결코 나쁜 접근법이 아닙니다. 전체 정보 최대 가능성을 수행 할 수도 있습니다. 여기여기에 좋은 검토 및 비교 .

그러나 LASSO는 Bayesian 회귀의 특별한 경우 이기 때문에이 경로를 사용하는 경우 Stan 을 사용 하여 ML 대치와 단일 회귀 모형을 동시에 맞추는 것을 고려 하십시오 .


다중 대치 방법을 잘못 이해했지만 이제는 제 경우에도 적용 할 수 있습니다. 이것을 반영하기 위해 질문을 편집했습니다. SPSS 또는 R 중 하나가 언급 한 두 가지 옵션을 실행하는지 알고 있습니까?
의아해

1
mi도움이 될 수 있는 R 패키지 가 있습니다.
shadowtalker

2
R을 통해 Stan을 실행할 수 있습니다 ( RStan 참조 ).
Scortchi-Monica Monica 복원

R에 대한 추가 다중 대치 패키지에는 Ameliamice.
Sycorax는 Reinstate Monica

0

통계의 CATREG 명령은 LASSO로 누락 된 데이터를 처리합니다. 사례를 목록별로 제외하거나 절차를 무시할 수 있습니다. 이름에 따라 범주 형 변수에 대한 것이지만 축척을 숫자로 설정하여 연속 사례를 처리 할 수 ​​있습니다.


SAS PROC CATREG라고 생각합니다.
Ben Bolker 2018 년

@ JKP : 실제로이 명령을 보았습니다. 그러나 내 outome 변수가 이진이라는 것을 고려할 때 categorical regression (CATREG)보다 로지스틱 회귀가 더 적합하다고 가정합니다. 또한 CATREG의 옵션은 다소 제한적으로 보입니다. 대소 문자 제외, 결 측값을 평균값으로 대체 또는 추가 카테고리 작성 중 하나만 선택할 수 있습니다.
의아해

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.