융기 부분과 올가미가 각각 잘 수행되지만 다른 계수를 생성 할 때 결과를 해석하는 방법


11

Lasso와 Ridge를 모두 사용하여 회귀 모델을 실행 중입니다 (0-5 범위의 이산 결과 변수 예측). 모델을 실행하기 전에 기능 세트를 250 에서 25 로 줄이는 SelectKBest방법을 사용 합니다. 초기 피처를 선택하지 않으면 Lasso와 Ridge는 정확도 점수가 낮아집니다 (샘플 크기가 작은 600 일 수 있음). 또한 일부 기능은 서로 관련되어 있습니다.scikit-learn

모델을 실행 한 후 예측 정확도가 Lasso 및 Ridge와 거의 동일하다는 것을 알았습니다. 그러나 계수의 절대 값으로 정렬 한 후 처음 10 개의 피처를 확인하면 최대 50 %의 겹침이 있음을 알 수 있습니다.

즉, 각 방법에 따라 기능의 중요성이 다르게 지정되면 선택한 모델에 따라 완전히 다른 해석을 할 수 있습니다.

일반적으로 기능은 웹 사이트에서 사용자 동작의 일부 측면을 나타냅니다. 따라서 더 강력한 예측 기능과 약한 기능 (사용자 동작)으로 기능 (사용자 동작)을 강조 표시하여 찾은 결과를 설명하고 싶습니다. 그러나 지금은 앞으로 나아가는 방법을 모르겠습니다. 모델 해석에 어떻게 접근해야합니까? 예를 들어, 둘을 결합하고 겹치는 부분을 강조 표시해야합니까, 아니면 더 나은 해석 기능을 제공하므로 올가미를 사용해야합니까?


3
(+1) 정규화는 새로운 반응을 예측할 때 집단 성능을 향상시키면서 개별 계수 추정치를 악화시키는 것으로 볼 수 있습니다. 해석을 통해 정확히 무엇을 달성하려고합니까?
Scortchi-Monica Monica 복원

1
@Scortchi 답변 주셔서 감사합니다. 나는 이것을 추가했다Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
renakre

3
+1 AFAIK 릿지 계수와 람다 사이의 관계는 단조 일 필요는 없지만 올가미에서는 관계가 있습니다. 따라서, 특정 수축 수준에서 릿지 및 올가미의 계수의 절대 값은 크게 다를 수 있습니다. , 누군가가 이것에 대한 증거를 스케치하거나 수학적으로
간단히

"베타"계수를 정렬해야합니다. stats.stackexchange.com/a/243439/70282를 참조하십시오 . 표준화 된 변수를 학습하거나 링크에 설명 된대로 나중에 조정할 수 있습니다.
Chris

1
λ

답변:


7

릿지 회귀는 모든 계수가 작아 지도록 권장합니다. 올가미는 많은 / 가장 [**] 계수가 0이되고, 소수가 0이 아닌 것을 권장합니다. 둘 다 훈련 세트의 정확도를 낮추지 만 어떤 방식으로 예측을 향상시킵니다.

  • 능선 회귀는 과적 합을 줄임으로써 테스트 세트에 대한 일반화를 향상시킵니다.
  • 올가미는 훈련 및 테스트 세트 모두에서 성능에 불이익을 주더라도 0이 아닌 계수의 수를 줄입니다.

데이터의 상관 관계가 높은 경우 다른 계수를 선택할 수 있습니다. 따라서 상관 관계가있는 5 가지 기능이있을 수 있습니다.

  • 릿지 회귀는 훈련 세트에서 작지만 0이 아닌 계수를 할당하여 훈련 세트에서 낮은 손실을 달성 할 수 있습니다.
  • 올가미는 이들 중 하나만 선택할 수 있으며 다른 하나는 서로 관련이 있습니다. 릿지 회귀 버전에서 계수가 가장 높은 피처를 선택해야 할 이유가 없습니다.

'선택'의미의 정의에 대한 [*] : 능선 회귀 계수는 모두 0이 아닌 경향이 있기 때문에 0e가 아닌 계수를 할당합니다. , 기타는 0.01 일 수 있습니다.

λ


좋은 제안. 상관 관계 매트릭스를 수행하는 것이 좋습니다. 겹치지 않는 변수는 서로 관련이있을 수 있습니다.
Chris

3
좋은 대답입니다! 그러나 릿지가 올가미에 대해 동일하게 말하지 않고 테스트 성능을 향상시키기 위해 보편적으로 시도한다고 제안하는 것이 불공평합니다. 예를 들어, 실제 모델은 드문 드문 경우 (우리의 예측의 부분 집합), 우리는 즉시 올가미 능선보다 더 나은 테스트 성능을 가질 것으로 예상 할 수있다
user795305

이것이 '희소에 대한 베팅'원칙입니다. 예를 들어, 여기에서 첫 번째 줄거리를보십시오 : faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html
user795305

2
데이터의 여러 부트 스트랩 샘플 간의 변수 선택 (LASSO) 및 회귀 계수의 비교는 이러한 문제를 잘 설명 할 수 있습니다. 상관 된 예측 변수를 사용하면 LASSO가 다른 부트 스트랩에서 선택한 것과 유사한 예측 성능을 제공하면서 상당히 다를 수 있습니다. 이상적으로, 초기 기능 세트 감소를 포함한 전체 모델 구축 프로세스는 프로세스의 품질을 문서화하기 위해 여러 부트 스트랩에서 반복되어야합니다.
EdM

λ
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.