이 질문에 약간의 기초가 있다면 미안합니다.
R의 다중 선형 회귀 모델에 LASSO 변수 선택을 사용하려고합니다. 15 개의 예측 변수가 있는데 그중 하나는 범주 형입니다 (문제를 일으킬 수 있습니까?). 내 와 설정 한 후 다음 명령을 사용합니다.y
model = lars(x, y)
coef(model)
내 문제는 내가 사용할 때 coef(model)
입니다. 이렇게하면 매 15 개의 예측 변수가 추가 된 15 개의 행이 포함 된 행렬이 반환됩니다. 그러나 어떤 모델을 선택해야하는지에 대한 제안은 없습니다. 내가 놓친 것이 있습니까? 하나의 " 최고의 "모델 만 반환하도록 lars 패키지를 얻을 수있는 방법이 있습니까?
glmnet
대신 사용 을 제안하는 다른 게시물 이 있지만 더 복잡해 보입니다. 동일한 및 사용하여 다음과 같이 시도 합니다. 내가 여기서 뭔가를 놓친 적이 있습니까? : y
cv = cv.glmnet(x, y)
model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min)
predict(model, type="coefficients")
마지막 명령은 내 변수 목록을 반환하며 대부분은 계수가 있지만 대부분은 0입니다. 이것이 LASSO에 의해 선택된 " 최고 "모델 의 올바른 선택 입니까? 그런 다음 계수가있는 모든 변수에 선형 모델을 not=0
맞추면 계수 추정치가 매우 비슷하지만 약간 다릅니다. 이 차이에 대한 이유가 있습니까? LASSO에서 선택한 이러한 변수를 사용하여 선형 모델을 다시 피팅하고 최종 모델로 사용할 수 있습니까? 그렇지 않으면 유의성에 대한 p- 값을 볼 수 없습니다. 내가 놓친 것이 있습니까?
않습니다
type.gaussian="covariance"
glmnet
다중 선형 회귀 를 사용 하는지 확인하십시오 .
변수의 자동 정규화가 계수에 전혀 영향을 줍니까? LASSO 절차에 상호 작용 용어를 포함시킬 수있는 방법이 있습니까?
이 절차를 변경하여 중요한 추론 / 예측에 실제로 사용될 모델보다 LASSO를 사용하는 방법에 대한 데모로이 절차를 더 많이 사용하려고합니다.
이것을 읽어 주셔서 감사합니다. LASSO / lars / glmnet에 대한 일반적인 의견도 크게 감사하겠습니다.