상호 작용 항이있는 LASSO-주요 효과가 0으로 줄어든다면 괜찮습니까?


25

LASSO 회귀는 계수를 0으로 축소하여 효과적으로 모델 선택을 제공합니다. 내 데이터에는 공칭 및 연속 공변량 사이에 의미있는 상호 작용이 있다고 생각합니다. 그러나 반드시 진정한 모델의 '주요 효과'가 의미가있는 것은 아닙니다 (0이 아님). 물론 나는 진정한 모델을 알 수 없기 때문에 이것을 모른다. 저의 목표는 실제 모델을 찾고 가능한 한 밀접하게 결과를 예측하는 것입니다.

나는 모델 구축에 대한 고전적인 접근법이 항상 상호 작용이 포함 되기 전에 주요 효과 포함한다는 것을 배웠습니다 . 따라서 동일한 모델에서 공변량 의 상호 작용이있는 경우 두 공변량 와 의 주 효과가없는 모형은 존재할 수 없습니다 . 이 기능은 결과적으로이 규칙을 준수하는 모델 용어 (예 : AIC를 기준으로)를 신중하게 선택합니다.엑스엑스stepR

LASSO는 다르게 작동하는 것 같습니다. 모든 매개 변수가 불이익을 받으므로, 주 효과는 0으로 줄어든 반면 가장 좋은 (예 : 교차 검증 된) 모델의 상호 작용은 0이 아닙니다. Rglmnet패키지를 사용할 때 특히 내 데이터를 찾습니다 .

위에서 인용 한 첫 번째 규칙, 즉 최종 교차 검증 된 올가미 모델에 0이 아닌 상호 작용의 해당 주 효과 항이 포함되어 있지 않다는 비판을 받았습니다. 그러나이 규칙에서는이 규칙이 다소 이상하게 보입니다. 결과는 실제 모델의 매개 변수가 0인지 여부입니다. 그것이 맞지만 상호 작용이 0이 아니라고 가정하면 LASSO가이를 식별하여 올바른 모델을 찾습니다. 실제로이 모델의 예측은 더 정확 해 보일 것입니다. 모델에는 사실상 잡음 변수 인 제로 주요 효과가 포함되어 있지 않기 때문입니다.

이 근거를 근거로 비판을 반박 할 수 있습니까, 아니면 어떻게 LASSO가 상호 작용 기간 전에 주요 효과를 포함하는지 사전 예방 조치를 취해야합니까?


2
누군가가 이것을 하향 투표했습니다. 나는 관심을 가질만한 이유가있다
tomka

1
목표 예측, 추론 또는 다른 것들이 모두 함께 있습니까?
Andrew M

@AndrewM 가능한 실제 모델을 추정하고 종속 변수를 일으키는 변수를 해석하고 예측 된 값을 사용하고 싶습니다.
tomka

2
첫 번째 목표의 경우 교차 유효성 검사가 모델 선택과 일치하지 않습니다. 사실이 밝혀졌다 은 "진정한"모델 경향이 모델이 예측 성능의 추정치를 최대화하는 하나의 부분 집합이 될 것을. 두 번째 목표의 경우 올가미는 매우 치우친 추정치를 제공합니다. 따라서 유용한 조언을 제공하기 전에 주요 목표가 무엇인지 결정하고 질문을 수정하여 명확히해야한다고 생각합니다.
Andrew M

@AndrewM 내 질문은 : LASSO를 사용할 때 주요 효과가 모델에 포함되어야합니까? 이 질문은 내 두 대상 모두에 대해 별도로 대답 할 수 있습니다. 나는 그 질문이 더 수정 될 필요는 없다고 생각하지만, 이러한 목표를 지적하는 것이 중요하다.
tomka

답변:


10

이 질문에 대답하는 데있어 한 가지 어려움은 LASSO를 대부분의 실제 응용 프로그램에서 일반적으로 예측 변수간에 무시할 수없는 상관 관계를 갖는 "실제"모델이라는 아이디어와 조정하기 어렵다는 것입니다. 이 경우 모든 변수 선택 기술과 마찬가지로 LASSO에 의해 0이 아닌 계수로 반환 된 특정 예측 변수는 기본 모집단의 표본 수에 따라 다릅니다. 동일한 데이터 세트의 여러 부트 스트랩 샘플에 대해 LASSO를 수행하고 리턴 된 예측 변수 세트를 비교하여이를 확인할 수 있습니다.

또한 @AndrewM이 의견에서 언급했듯이 LASSO에서 제공하는 추정치의 편향은 결과를 "가능한 한 가깝게"예측하지 않을 것임을 의미합니다. 오히려, 피할 수없는 바이어스-분산 트레이드 오프의 특정 선택에 기반한 결과를 예측하고 있습니다.

따라서 이러한 어려움을 감안할 때, 비평가, 상호 작용에 기여하는 변수의 주요 효과의 크기를 만족시키기 위해 자신을 알고 싶어 할 것입니다. R에서 사용할 수있는 glinternet 패키지가 있습니다.이 패키지는 당신이 필요로하는 것을 정확하게 수행합니다 (나는 그것에 대한 경험이 없지만) :

그룹 올가미 인터랙션 -NET. 강력한 계층 구조를 만족하는 선형 쌍 상호 작용 모델에 적합합니다. 상호 작용 계수가 0이 아닌 것으로 추정되면 두 관련 주요 효과에도 0이 아닌 추정 계수가 있습니다. 임의의 수의 수준, 연속 변수 및 이들의 조합으로 범주 형 변수 (인자)를 수용합니다.

또는 예측 변수가 너무 많지 않으면 능선 회귀를 대신 고려하여 특정 데이터 샘플의 변수에 훨씬 덜 의존 할 수있는 모든 변수에 대한 계수를 반환합니다.


9

나는 파티에 늦었지만 여기에 당신의 문제에 대한 나의 생각이 거의 없습니다.

  1. 올가미는 유익한 것을 선택합니다. 가장 적은 수의 기능으로 최고의 예측 성능을 얻는 방법으로 올가미를 고려해 보겠습니다. 어떤 경우에는 올가미가 주요 효과가 아닌 상호 작용을 선택하는 것이 좋습니다. 그것은 주요 효과가 유익하지는 않지만 상호 작용이 있다는 것을 의미합니다.

  2. 보고 한 내용 만보고합니다. 일부 방법을 사용했으며 결과가 생성되었습니다. 재현성을 허용하는 투명한 방식으로보고합니다. 제 생각에는 당신의 일이 끝났습니다. 결과는 객관적이며, 찾은 것을 찾았고 정당화하는 것이 당신의 일이 아니며, 왜 다른 것을 찾지 못했는지에 대한 결과가 아닙니다.

  3. 모든 단위는 임의적입니다. 상호 작용은 단지 단위입니다. 색상을 공부한다고 가정 해 봅시다. 색상은 파장, 로그 파장 또는 3 개의 RGB 변수 또는 색조와 색조 등의 상호 작용으로 모델에 포함될 수 있습니다. 본질적으로 정확하거나 부정확 한 색상 표현은 없습니다. 문제에 가장 적합한 것을 선택합니다. 상호 작용은 임의로 사용할 수있는 단위 일뿐입니다. 창의 영역은 높이와 너비의 상호 작용 일뿐입니다. 모델에 창의 높이와 너비를 포함시켜야합니까? 속도는 질량과 속도의 상호 작용입니다. 그리고 속도는 시간과 거리의 상호 작용입니다. Manhours는 시간과 일하는 사람들의 상호 작용입니다. 수학적 치료 용량 * 나이는 높이 * 너비와 동일합니다. "항상 주 효과를 포함시켜야한다"는 말이 과대 평가되었다.

  4. 올가미는 실제 모델과 비슷하지 않으며 추론을위한 것이 아니며 선택한 변수가 불안정합니다. 관련성있는 예측 변수가있는 경우 올가미는 하나를 선택하고 다른 하나는 0으로 푸시하는 경향이 있으므로 모형에서 많은 정보 변수가 생략됩니다. 또한 의견에서 지적했듯이 교차 유효성 검사에서 가장 좋은 람다를 찾으면 올가미는 실제 모델보다 더 많은 변수를 선택합니다. 또 다른 문제는 올가미에서 선택한 항목이 불안정하다는 것입니다. 따라서 모집단의 다른 샘플에서 올가미를 다시 실행하면 선택한 다른 변수 세트로 끝납니다. 따라서 어떤 변수가 선택되는지에 많은 가중치를 두지 않습니다. 또한 베타는 바이어스되므로 고전적인 파라 메트릭 가설 테스트에 사용할 수 없습니다. 그러나 그 주위에 방법이 있습니다 (다음 요점)

  5. 올가미로 추론. 올가미를 사용하여 예측 변수를 추론 할 수 있습니다. 가장 간단한 방법은 부트 스트랩하고 각 변수가 선택된 횟수를 세고 재 샘플 수로 나눠서 p- 값을 갖는 것입니다. 이 경우 P는 올가미에 의해 변수가 선택 될 확률입니다. 여전히 중요한 상호 작용 효과와 중요하지 않은 주요 효과로 끝날 수는 있지만 문제는 아닙니다. 정상적인 가설 검정에서도 발생할 수 있습니다. 이 주제에 대한 대우는 Hastie et. 알. 무료 서적 : 희소성 통계 학습, 6 장 http://web.stanford.edu/~hastie/StatLearnSparsity/부트 스트랩은 모든 범위의 람다 값에 대해 람다 값의 전체 범위에 대해 수행 될 수 있습니다. 이것은 가족 선택 오류에 대해 수정 된 중요한 변수 세트를 찾기 위해 안정성 선택 접근법으로 확장 될 수 있습니다. http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2010.00740.x/abstract 올가미를 추론하는 다른 방법도 있습니다. 즉, 적응 형 올가미 또는 절망적 인 올가미. R 구현을 통한 검토는 여기 DOI : 10.1214 / 15-STS527 또는 Buhlmanm, van de Geer Book : High-Dimensional Data에 대한 통계 http://www.springer.com/la/book/9783642201912 에서 더 접근하기 쉬운 설명입니다 .

  6. 다른 올가미 관련 사항을 알고 있어야합니다. 내가 아는 한 능선이나 탄성 그물은 올가미를 능가하는 경향이 있습니다. 변수에 대한 도메인 지식이있는 경우 그룹 올가미 또는 스파 스 그룹 올가미를 사용하여 올가미가 개별 예측 변수를 개별적으로 처리하는 대신 전체 예측 변수 그룹을 유지하거나 삭제하도록 할 수 있습니다 (예 : 유전자 경로, 더미 코딩 된 요인 변수). 공간적 또는 순서화 된 데이터의 경우, 융합 된 올가미가 사용될 수있다. 위에서 언급 한 안정성 선택 논문에 소개 된 무작위 올가미는 표준 올가미와 동일한 성능의 스파 저 모델을 생성하는 경향이 있습니다.


1
정말 좋아하는 # 3
user4581

0

소수의 주 효과가 불이익을받지 않기를 원하는 응용 프로그램이 있습니다. Y = X. 메인 베타 + X. 인터 베타 인터 + eps

a) fit.Y = OLS (X.main, Y). tilde.Y = Y-예측 (fit.Y, X.main) b) j [1 ... k에 대해 fit [, j] = OLS (X.main, X.inter [, j])라고하자. tilde.X.inter [, j] = X.inter [, j]-predict (fit.j, X.main) c) fit = Lasso (tilde.X.inter, tilde.y)로하자. 주 효과 계수는 fit.Y-coef (fit) * fit [, 1 : dim (X.inter) [2]]와 같습니다. 상호 작용 효과 계수는 coef (fit)와 같습니다.

단계 a 및 b에서 샘플 분리를 수행 할 필요가 없습니다. 그것은 나를 위해 작동합니다!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.