올가미 로지스틱 회귀 분석에서 계수 유의성 검정


10

[A 비슷한 질문은 질문했다 여기에 아무 답변]

나는 L1 정규화 (Lasso logistic regression) 로 로지스틱 회귀 모델을 적합 시켰고 유의성에 대한 적합 계수를 테스트하고 p- 값을 얻고 싶습니다. 나는 Wald의 검정 (예를 들어)이 정규화없이 전체 회귀에서 개별 계수의 중요성을 검정하는 옵션이라는 것을 알고 있지만 Lasso에서는 일반적인 Wald 공식을 적용 할 수없는 추가 문제가 발생한다고 생각합니다. 예를 들어, 검정에 대해 조정 된 분산 추정치는 일반적인 식을 따르지 않습니다. 원래 올가미 종이

http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

계수 분산을 추정하기위한 부트 스트랩 기반 절차를 제안합니다.이 편차는 테스트에 필요할 수도 있습니다 (2.5 페이지, 마지막 단락 272 페이지 및 273 시작).

한 가지 방법은 부트 스트랩을 통해입니다 : 하나 고정 될 수있다 또는 우리가 이상 최적화 할 수 있습니다 t을 각각의 부트 스트랩 샘플. t를 고치는 것은 가장 좋은 부분 집합 ( 특징 )을 선택한 다음 그 부분 집합에 대해 최소 제곱 표준 오류를 사용하는 것과 유사합니다.

내가 이해하는 것은 : 정규화 매개 변수에 대한 최적의 값을 찾을 때까지 (부트 스트랩의 일부가 아님)까지 올가미 회귀를 전체 데이터 세트에 반복적으로 맞춘 다음 올가미에서 선택한 기능 만 사용하여 하위 샘플에 OLS 회귀를 맞추십시오 각 회귀 분석에서 분산을 계산하기 위해 일반적인 공식을 적용합니다. (그리고 각 계수의 최종 분산 추정값을 얻으려면 각 계수의 모든 분산으로 어떻게해야합니까?)

또한 계수의 올가미 추정치 및 부트 스트랩 추정 편차와 함께 일반적인 유의성 검정 (예 : 추정 베타 및 분산을 사용하는 Wald 검정)을 사용하는 것이 맞습니까? 나는 그것이 확실하지 않다는 것을 확신하지만, 어떤 도움 (다른 테스트를 사용하고, 더 직접적인 접근법을 사용 하든지간에 ...)은 환영 이상입니다.

여기 의 대답에 따르면 추론과 p- 값을 얻을 수 없다고 생각합니다. 필자의 경우 p- 값은 외부 요구 사항입니다 (L1 정규화 사용이 나의 선택 임에도 불구하고).

고마워

편집 이전의 올가미 로지스틱 회귀 분석에서 선택한 변수 만 사용하여 OLS 로지스틱 회귀에 적합하면 어떻게됩니까? 분명히 ( 여기 참조 )

교차 유효성 검사를 수행 한 후 모델을 다시 실행할 필요가 없으며 (cv.glmnet의 출력에서 ​​계수를 얻음) 실제로 벌칙없이 새로운 로지스틱 회귀 모델을 적합하게하면 사용 목적을 무시하게됩니다 올가미

그러나 변수 수를 낮게 유지하면서 p- 값을 계산할 수 있다는 목적으로 만이 작업을 수행하면 어떻게됩니까? 매우 더러운 접근법입니까? :-)


LASSO 모델에 대한 추론을 수행하려면 고차원 모델에 대한 추론을 제공 하는 CRAN 패키지 hdi 도 확인할 수 있습니다 .
Tom Wenseleers

전체 방법은이 백서에 잘 설명되어 있습니다. projecteuclid.org/euclid.ss/1449670857
Tom Wenseleers

또한 LASSO에 대한 추론을 제공하는 데 유용 할 수있는 cran.r-project.org/web/packages/selectiveInference/index.html 패키지도 있습니다.
Tom Wenseleers

이것은 좋은 질문입니다.
진화 왕

답변:


5

일반적인 유의성 검정을 사용할 때의 문제점은 결과 변수와 아무런 관련이없는 임의의 변수가 있다는 null을 가정한다는 것입니다. 그러나 올가미와 함께하는 것은 올가미로 가장 좋은 변수를 선택하고 베타가 줄어드는 무작위 변수입니다. 따라서 사용할 수 없으면 결과가 바이어스됩니다.

내가 아는 한 부트 스트랩은 분산 추정값을 얻는 데 사용되지 않고 선택된 변수의 확률을 얻는 데 사용됩니다. 그리고 그것들은 당신의 p- 값입니다. Hasie의 무료 저서 인 Sparsity를 통한 통계 학습, 6 장에서 같은 내용을 확인하십시오. http://web.stanford.edu/~hastie/StatLearnSparsity/

올가미에서 다른 방법으로는 P-값을 얻을 수 있도록 또한이 논문을 확인 https://arxiv.org/pdf/1408.4026.pdf은 아마 더 있습니다


4

모형 선택 후 추론을 수행 할 때의 문제는 가장 예측 가능한 변수를 선택한 다음 데이터와 독립적으로 선택된 것처럼 추론을 수행한다는 것입니다. 올가미 (또는 다른 모델 선택 방법)로 모델 선택을 수행 한 후 회귀 모델을 다시 시작하면 가 될 수 있음을 보여줄 수 있습니다.

다행히도 최근에는 선택 후를 설명하는 추론 방법을 개발하는 데 많은 발전이있었습니다. 귀하의 사례와 관련된 일부 참조는 http://projecteuclid.org/euclid.aos/1460381681https://arxiv.org/pdf/1602.07358.pdf 입니다. 이러한 참조에서 논의 된 기술은 R 패키지 selectiveInference- https://cran.r-project.org/web/packages/selectiveInference/index.html 에서 구현됩니다 . selectiveInference 패키지는 필요한 유효한 신뢰 구간을 생성해야합니다.


1
Univ.에 의한 Coursera의 기계 학습 전문화 2 학년 (회귀) 교사들은 일주일 내내 올가미 회귀에 헌신했다. 슬라이드 중 하나에서, 내가 설명 한 절차 (올가미를 사용하여 피처를 선택한 다음 해당 변수만으로 LS 회귀를 맞추는 방법)는 debiasing 으로 표시 되며 Mario Figueiredo의 논문에서 그래프로 표시됩니다. 슬라이드 105를 확인하십시오 : github.com/MaxPoon/coursera-Machine-Learning-specialization/…
Pablo

올가미의 디바 이어 싱을 권장하지만 가설 검정에 대해서는 전혀 논의하지 않습니다. 또한, 모델을 거부하는 것은 올가미에 의해 야기 된 하향 바이어스를 제거하지만, 승자의 저주에 의해 유발 된 상향 바이어스를 돕는 것은 아니기 때문에, 탈 편위 제거라는 용어는 오도의 소지가있다. 내가 아는 한, 선택한 모델의 회귀 계수 추정값을 진정으로 편차를 줄이는 유일한 방법은 조건부 최대 우도 추정값을 계산하는 것입니다. arxiv.org/abs/1705.09417
user3903581
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.