[A 비슷한 질문은 질문했다 여기에 아무 답변]
나는 L1 정규화 (Lasso logistic regression) 로 로지스틱 회귀 모델을 적합 시켰고 유의성에 대한 적합 계수를 테스트하고 p- 값을 얻고 싶습니다. 나는 Wald의 검정 (예를 들어)이 정규화없이 전체 회귀에서 개별 계수의 중요성을 검정하는 옵션이라는 것을 알고 있지만 Lasso에서는 일반적인 Wald 공식을 적용 할 수없는 추가 문제가 발생한다고 생각합니다. 예를 들어, 검정에 대해 조정 된 분산 추정치는 일반적인 식을 따르지 않습니다. 원래 올가미 종이
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
계수 분산을 추정하기위한 부트 스트랩 기반 절차를 제안합니다.이 편차는 테스트에 필요할 수도 있습니다 (2.5 페이지, 마지막 단락 272 페이지 및 273 시작).
한 가지 방법은 부트 스트랩을 통해입니다 : 하나 고정 될 수있다 또는 우리가 이상 최적화 할 수 있습니다 t을 각각의 부트 스트랩 샘플. t를 고치는 것은 가장 좋은 부분 집합 ( 특징 )을 선택한 다음 그 부분 집합에 대해 최소 제곱 표준 오류를 사용하는 것과 유사합니다.
내가 이해하는 것은 : 정규화 매개 변수에 대한 최적의 값을 찾을 때까지 (부트 스트랩의 일부가 아님)까지 올가미 회귀를 전체 데이터 세트에 반복적으로 맞춘 다음 올가미에서 선택한 기능 만 사용하여 하위 샘플에 OLS 회귀를 맞추십시오 각 회귀 분석에서 분산을 계산하기 위해 일반적인 공식을 적용합니다. (그리고 각 계수의 최종 분산 추정값을 얻으려면 각 계수의 모든 분산으로 어떻게해야합니까?)
또한 계수의 올가미 추정치 및 부트 스트랩 추정 편차와 함께 일반적인 유의성 검정 (예 : 추정 베타 및 분산을 사용하는 Wald 검정)을 사용하는 것이 맞습니까? 나는 그것이 확실하지 않다는 것을 확신하지만, 어떤 도움 (다른 테스트를 사용하고, 더 직접적인 접근법을 사용 하든지간에 ...)은 환영 이상입니다.
여기 의 대답에 따르면 추론과 p- 값을 얻을 수 없다고 생각합니다. 필자의 경우 p- 값은 외부 요구 사항입니다 (L1 정규화 사용이 나의 선택 임에도 불구하고).
고마워
편집 이전의 올가미 로지스틱 회귀 분석에서 선택한 변수 만 사용하여 OLS 로지스틱 회귀에 적합하면 어떻게됩니까? 분명히 ( 여기 참조 )
교차 유효성 검사를 수행 한 후 모델을 다시 실행할 필요가 없으며 (cv.glmnet의 출력에서 계수를 얻음) 실제로 벌칙없이 새로운 로지스틱 회귀 모델을 적합하게하면 사용 목적을 무시하게됩니다 올가미
그러나 변수 수를 낮게 유지하면서 p- 값을 계산할 수 있다는 목적으로 만이 작업을 수행하면 어떻게됩니까? 매우 더러운 접근법입니까? :-)