내 상황 :
- 작은 샘플 크기 : 116
- 이진 결과 변수
- 설명 변수의 긴 목록 : 44
- 설명 변수는 내 머리 꼭대기에서 나오지 않았습니다. 그들의 선택은 문헌에 근거했다.
- 대부분의 경우 샘플과 대부분의 변수에 결 측값이 있습니다.
선택된 기능 선택에 접근 : LASSO
R의 glmnet 패키지는 데이터 세트에 누락 된 값이 있기 때문에 glmnet 루틴을 실행할 수 없습니다. 누락 된 데이터를 처리하는 다양한 방법이있는 것 같습니다. 그래서 알고 싶습니다.
- LASSO는 내가 사용할 수있는 대치 방법에 제한을 두나요?
- 대치 방법에 가장 적합한 방법은 무엇입니까? 이상적으로는 SPSS (바람직하게는) 또는 R에서 실행할 수있는 방법이 필요합니다.
업데이트 1 : 아래 답변 중 일부에서 대치 방법을 고려하기 전에 더 기본적인 문제를 다루었다는 것이 분명해졌습니다. 여기에 새로운 질문을 추가하고 싶습니다. 대답은 '해당되지 않는'값과 그룹 올가미의 사용법을 처리하기 위해 코딩을 상수 값으로 제안하고 새 변수를 생성하는 것입니다.
- 그룹 LASSO를 사용하는 경우 연속 예측 변수 및 범주 예측 변수에 제안 된 방법을 사용할 수 있습니까? 그렇다면 새 카테고리를 만드는 것과 같다고 가정합니다. 편향이 발생할 수 있다는 점에주의해야합니다.
- R의 glmnet 패키지가 그룹 LASSO를 지원하는지 아는 사람이 있습니까? 그렇지 않다면 누구도 로지스틱 회귀와 결합하여 다른 것을 제안 할 것입니까? 그룹 LASSO를 언급하는 몇 가지 옵션이 CRAN 저장소에서 찾을 수 있습니다. 제 경우에 가장 적합한 제안은 무엇입니까? 아마도 SGL?
이것은 내 이전 질문에 대한 후속 조치입니다 ( 로지스틱 회귀 분석을 수행하기 위해 원래의 긴 목록에서 변수의 하위 집합을 선택하는 방법은 무엇입니까? ).
OBS : 저는 통계학자가 아닙니다.