Lasso와 Ridge를 모두 사용하여 회귀 모델을 실행 중입니다 (0-5 범위의 이산 결과 변수 예측). 모델을 실행하기 전에 기능 세트를 250 에서 25 로 줄이는 SelectKBest
방법을 사용 합니다. 초기 피처를 선택하지 않으면 Lasso와 Ridge는 정확도 점수가 낮아집니다 (샘플 크기가 작은 600 일 수 있음). 또한 일부 기능은 서로 관련되어 있습니다.scikit-learn
모델을 실행 한 후 예측 정확도가 Lasso 및 Ridge와 거의 동일하다는 것을 알았습니다. 그러나 계수의 절대 값으로 정렬 한 후 처음 10 개의 피처를 확인하면 최대 50 %의 겹침이 있음을 알 수 있습니다.
즉, 각 방법에 따라 기능의 중요성이 다르게 지정되면 선택한 모델에 따라 완전히 다른 해석을 할 수 있습니다.
일반적으로 기능은 웹 사이트에서 사용자 동작의 일부 측면을 나타냅니다. 따라서 더 강력한 예측 기능과 약한 기능 (사용자 동작)으로 기능 (사용자 동작)을 강조 표시하여 찾은 결과를 설명하고 싶습니다. 그러나 지금은 앞으로 나아가는 방법을 모르겠습니다. 모델 해석에 어떻게 접근해야합니까? 예를 들어, 둘을 결합하고 겹치는 부분을 강조 표시해야합니까, 아니면 더 나은 해석 기능을 제공하므로 올가미를 사용해야합니까?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .