무작위 로지스틱 회귀 분석과 일반 바닐라 로지스틱 회귀 분석의 차이점


12

나는 사이의 차이점을 알고 싶습니다 무작위 로지스틱 회귀 (RLR) 및 일반 로지스틱 회귀 나는 종이 읽고있다, 따라서 (LR)를 "안정성 선택" 으로 등, Meinshausen. ; 그러나 나는 RLR이 무엇이며 RLR과 LR의 차이점이 무엇인지 이해하지 못합니다.

누군가 RLR을 이해하기 위해 읽어야 할 것을 지적 할 수 있습니까? 아니면 간단한 예가 있습니까?


1
RLR은 표준 용어가 아닙니다. 방법을 정의하십시오.
Frank Harrell

감사합니다 @FrankHarrell ...이 방법은 scikit 학습 라이브러리에서 제공 됩니다.
Hendra Bunyamin

이제 머신 러닝 / 빅 데이터를위한 새로운 스택 교환 사이트가 생겼을 것입니다.
Placidia

4
@Placidia 좋은 제안입니다. 그러나 귀하의 고유 한 답변은이 질문이 여기에 속하는 이유를 보여줍니다. 질문의 통계적 측면과 ML 측면을 정확하게 특성화하고 비교하는 균형 잡힌 관점을보다 잘 제공 할 수 있습니다. 비록 가능한 "데이터 과학"사이트에 누군가가 같은 대답을 기여할 수 있는지, 내 경험은 않을 것이라고이있다.
whuber

3
새로운 사이트는 콜 데이터 사이언스 (Call data science)라는 사실에 놀랐습니다. 통계의 절반 이상을 차지합니다.
Frank Harrell

답변:


17

이 참조 를 확인하고 싶을 수도 있습니다 . Sci-kit learn은 무작위 로지스틱 회귀 분석을 구현하며 여기에 방법이 설명되어 있습니다.

그러나 귀하의 질문에 대답하기 위해 두 가지 방법은 목표가 크게 다릅니다. 로지스틱 회귀는 모형 적합에 관한 것이고 RLR은 모형에 들어가는 변수를 찾는 것입니다.

바닐라 로지스틱 회귀 분석은 일반화 된 선형 모형입니다. 이항 반응의 경우, 반응 확률의 로그 확률은 여러 예측 변수의 선형 함수입니다. 예측 변수의 계수는 최대 가능성을 사용하여 추정되며 모수에 대한 추론은 모형의 큰 표본 특성을 기반으로합니다. 최상의 결과를 얻으려면 일반적으로 모델이 상당히 단순하고 잘 이해되어 있다고 가정합니다. 우리는 어떤 독립 변수가 반응에 영향을 미치는지 알고 있습니다. 모형의 모수를 추정하려고합니다.

물론 실제로는 어떤 변수가 모델에 포함되어야하는지 항상 알 수는 없습니다. 이것은 잠재적 인 설명 변수의 수가 많고 그 값이 희박한 기계 학습 상황에서 특히 그렇습니다.

수년에 걸쳐 많은 사람들이 변수 선택 ( "기능"읽기)을 목적으로 통계 모델 피팅 기술을 사용하려고 시도했습니다. 신뢰성 수준 향상 :

  1. 중요하지 않은 Wald 통계량으로 큰 모형을 적합하고 변수를 제거합니다. 항상 최상의 모델을 생산하지는 않습니다.
  2. 가능한 모든 모델을보고 "최고"를 선택하십시오. 계산 집약적이며 견고하지 않습니다.
  3. L1 페널티 항 (lasso style)으로 큰 모델을 적합시킵니다. 쓸모없는 변수가 적합하지 않습니다. 희소 행렬에서는 더 좋지만 불안정합니다.
  4. 랜덤 화 방법 3. 랜덤 한 부분 집합을 취하고, 처벌 모델을 각각에 맞추고 결과를 대조합니다. 자주 나오는 변수가 선택됩니다. 반응이 이진일 경우 이는 무작위 로지스틱 회귀입니다. 연속 데이터와 일반 선형 모델을 사용하여 유사한 기술을 가져올 수 있습니다.

2
+1 일반적인 방법론에 대한 잘 짜여지고 읽을 수있는 유익한 설문 조사를 보게되어 기쁩니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.