LASSO 회귀는 계수를 0으로 축소하여 효과적으로 모델 선택을 제공합니다. 내 데이터에는 공칭 및 연속 공변량 사이에 의미있는 상호 작용이 있다고 생각합니다. 그러나 반드시 진정한 모델의 '주요 효과'가 의미가있는 것은 아닙니다 (0이 아님). 물론 나는 진정한 모델을 알 수 없기 때문에 이것을 모른다. 저의 목표는 실제 모델을 찾고 가능한 한 밀접하게 결과를 예측하는 것입니다.
나는 모델 구축에 대한 고전적인 접근법이 항상 상호 작용이 포함 되기 전에 주요 효과 를 포함한다는 것을 배웠습니다 . 따라서 동일한 모델에서 공변량 의 상호 작용이있는 경우 두 공변량 와 의 주 효과가없는 모형은 존재할 수 없습니다 . 이 기능은 결과적으로이 규칙을 준수하는 모델 용어 (예 : AIC를 기준으로)를 신중하게 선택합니다.step
R
LASSO는 다르게 작동하는 것 같습니다. 모든 매개 변수가 불이익을 받으므로, 주 효과는 0으로 줄어든 반면 가장 좋은 (예 : 교차 검증 된) 모델의 상호 작용은 0이 아닙니다. R
의 glmnet
패키지를 사용할 때 특히 내 데이터를 찾습니다 .
위에서 인용 한 첫 번째 규칙, 즉 최종 교차 검증 된 올가미 모델에 0이 아닌 상호 작용의 해당 주 효과 항이 포함되어 있지 않다는 비판을 받았습니다. 그러나이 규칙에서는이 규칙이 다소 이상하게 보입니다. 결과는 실제 모델의 매개 변수가 0인지 여부입니다. 그것이 맞지만 상호 작용이 0이 아니라고 가정하면 LASSO가이를 식별하여 올바른 모델을 찾습니다. 실제로이 모델의 예측은 더 정확 해 보일 것입니다. 모델에는 사실상 잡음 변수 인 제로 주요 효과가 포함되어 있지 않기 때문입니다.
이 근거를 근거로 비판을 반박 할 수 있습니까, 아니면 어떻게 LASSO가 상호 작용 기간 전에 주요 효과를 포함하는지 사전 예방 조치를 취해야합니까?