단계적 로지스틱 회귀 및 샘플링


13

SPSS의 데이터 집합에 대해 단계별 로지스틱 회귀 분석을 적용하고 있습니다. 이 절차에서는 모델을 대략 임의의 하위 집합에 맞 춥니 다. 전체 표본의 60 %, 약 330 건입니다.

내가 흥미로운 점은 데이터를 다시 샘플링 할 때마다 최종 모델에서 다른 변수가 나타나고 나오는 것입니다. 최종 모형에는 항상 소수의 예측 변수가 있지만 표본에 따라 다른 예측 변수가 들어오고 나옵니다.

내 질문은 이것입니다. 이것을 처리하는 가장 좋은 방법은 무엇입니까? 예측 변수의 수렴을 기대하고 있었지만 실제로는 그렇지 않습니다. 일부 모델은 운영 관점에서 훨씬 직관적으로 이해되고 (의사 결정자에게 설명하기 더 쉬울 수 있음), 다른 모델은 데이터에 약간 더 적합합니다.

간단히 말해서, 변수가 뒤섞여 있기 때문에 내 상황을 어떻게 다루는 것이 좋습니까?

미리 감사드립니다.

답변:


16

단계별 절차를 사용하려면 다시 샘플링하지 마십시오. 하나의 무작위 서브 샘플을 한 번에 만듭니다. 그것에 대한 분석을 수행하십시오. 보류 된 데이터에 대해 결과를 검증하십시오. 대부분의 "중요한"변수는 중요하지 않은 것으로 판명 될 것입니다.

( 2015 년 12 월 편집 : 실제로 리샘플링, 단계별 절차 반복 및 재확인을 통해 간단한 접근 방식을 뛰어 넘을 수 있습니다 : 이것은 교차 검증의 형태로 이어질 것입니다. 능선 회귀, 올가미 및 탄성 그물과 같은 선택은 단계적 회귀보다 바람직 할 수 있습니다.)

데이터에 조금 더 잘 맞는 변수가 아니라 의미있는 변수에 초점을 맞 춥니 다. 330 개 레코드에 대한 소수 이상의 변수가있는 경우, 우선 과도하게 적합 할 위험이 큽니다. 단계적 회귀에 대해 상당히 엄격한 출입 기준을 사용하는 것이 좋습니다. 테스트 또는 테스트 의 임계 값 대신 AIC 또는 를 기준으로 합니다.에프

(독립 변수의 적절한 재 발현을 식별하기 위해 분석 및 탐색을 이미 수행했으며, 상호 작용 가능성이 높은 것으로 확인했으며 종속 변수의 로짓 사이에 대략 선형 관계가 있음을 확인했다고 가정합니다. 그렇지 않은 경우이 필수 예비 작업을 수행 한 다음 단계적 회귀로 돌아갑니다.)

내가 방금 말한 것처럼 일반적인 조언을 따르는 것에주의하십시오 :-). 접근 방식은 데이터의 특성, 변수 수 등 분석의 목적 (예측, 외삽, 과학적 이해, 의사 결정 등)에 따라 달라집니다.


2
모델 해석의 중요성을 강조하는 +1 더 복잡한 교차 검증 체계를 가진 정보가없는 ML 접근법 (또는 앙상블 방법)에 대해서는 아무 것도 추가하지 않겠습니다. 한 결과를 다른 결과와 비교함으로써), 그리고 (2) 우리가 예측 또는 설명 모델을 찾고 있는지 여부에 달려 있습니다.
chl

통찰력 주셔서 감사합니다. 검색 공간을 좁히기 위해 사전 검사를 수행했으며 변수가 가장 적은 예측을위한 최상의 모델을 찾고 싶습니다. 나는 7 명의 예측자를 모델에 던지고 있는데, 내가 이해하는 것처럼 괜찮습니다. 나는 샘플을 고수한다는 아이디어를 이해하지만, 반대로 모델이 근본적으로 다르고 결과가 완전히 샘플에 의존한다는 것을 보여주었습니다.
Btibert3

@ Btibert3 맞다 : 결과가 데이터의 임의의 하위 집합에 따라 다를 때, 독립 변수가 독립 변수의 강력하거나 일관된 예측 변수가 아니라는 증거로 볼 수 있습니다.
whuber

12

중요한 질문은 "왜 변수가 적은 모델을 왜 원하십니까?"입니다. 모델을 운영하는 데 필요한 데이터 수집 비용을 최소화하기 위해 가능한 적은 변수를 원한다면 whuber와 mbq가 제공하는 답변이 훌륭한 시작입니다.

예측 성능이 실제로 중요한 것이라면 기능 선택을 전혀하지 않고 정규화 된 로지스틱 회귀를 사용하는 것이 좋습니다 (리지 릿 회귀 참조). 실제로 예측 성능이 가장 중요했던 경우에는 작은 데이터 집합에 과적 합을 피하기 위해 일종의 "벨트 앤 괄호"전략으로 포장 된 정규화 된 로지스틱 회귀를 사용합니다. 회귀 분석에서 부분 집합 선택에 관한 그의 저서 에서 Millar 는 부록의 조언을 거의 제공하며, 많은 특징에 대한 문제는 많지만 많은 관찰에 대해서는 훌륭한 조언이라는 것을 알았습니다.

데이터를 이해하는 것이 중요하다면, 데이터를 이해하는 데 사용 된 모델이 예측을 수행하는 데 사용 된 것과 동일 할 필요는 없습니다. 이 경우 데이터를 여러 번 리샘플링하고 샘플 전체에서 선택된 변수의 패턴을 살펴보고 유익한 변수를 찾습니다 (mbq에서 알 수 있듯이 기능 선택이 불안정한 경우 단일 샘플이 전체 그림을 제공하지 않음). 그러나 나는 예측을 위해 여전히 정규화 된 로지스틱 회귀 모델 앙상블을 사용했습니다.


1
정규화 된 로지스틱 회귀에 대한 포인터의 경우 +1 "데이터를 여러 번 리샘플링"할 때 공식적으로 "패턴을 볼"수있는 방법이 확실하지 않습니다. 데이터 스누핑과 비슷하게 들리므로 좌절과 오류가 발생할 수 있습니다.
whuber

5
선택이 불안정 할 때 기능 선택은 항상 좌절과 오류의 레시피가됩니다. 하나의 샘플 만 사용하면 좌절감을 줄일 수 있지만,보고있는 특정 샘플에서 가장 잘 작동하는 것을 기반으로하여 문제의 관련 기능에 대한 추론을 이끌어 낼 수 있으므로 오류 가능성이 높아집니다. 장착. 리샘플링은 기능 선택의 불확실성에 대한 아이디어를 제공합니다. 이는 종종 마찬가지로 중요합니다. 이 경우 데이터가 충분하지 않기 때문에 관련 기능에 대한 강력한 결론을 도출해서는 안됩니다.
Dikran Marsupial

좋은 지적; 사람들이 리샘플링으로 만 의미를 세는 것을 싫어하면 정말 낭비입니다.

10

일반적으로 기능 선택에는 두 가지 문제점이 있습니다.

  • 가장 작은 오차를주는 가장 작은 변수 세트를 찾는 최소 최적
  • 모든 관련 당신은 문제에 관련된 모든 변수를 찾는 경우,

예측 변수 선택의 수렴은 모든 관련 문제의 영역에 있으며, 이는 매우 어렵 기 때문에 로지스틱 회귀, 무거운 계산 및 매우 신중한 처리보다 훨씬 강력한 도구가 필요합니다.

그러나 첫 번째 문제를 겪고있는 것처럼 보이므로 걱정할 필요가 없습니다. 나는 일반적으로 두 번째 whuber의 대답을 할 수 있지만 리샘플링을 포기해야한다는 주장에 동의하지 않습니다. 여기서 기능 선택을 안정화시키는 방법은 아니지만 그럼에도 불구하고 결합 된 기능 선택 + 훈련의 성능을 추정하기위한 시뮬레이션이 될 것입니다 따라서 정확성에 대한 자신감을 얻을 수 있습니다.


+1 리샘플링을 많이하면 혼란스럽고 오도 될 것 같습니다. 교차 검증 또는 검증을위한 홀드 아웃 샘플을 통해 제어 된 방식으로 리샘플링하는 것은 문제가되지 않습니다.
whuber

6

당신은 수있는 종이 언뜻 안정성 선택 JR 주의적에 Meinshausen 및 BUHLMANN에 의해. Soc B (2010) 72 4 부와 그 이후의 논의. 반복적으로 데이터 포인트 세트를 두 개의 반으로 나누고 각 절반에서 기능을 찾을 때 발생하는 상황을 고려합니다. 반쪽에 보이는 것이 반쪽과 일치하는 것과 무관하다고 가정하면 잘못 선택된 변수의 예상 수에 대한 경계를 증명할 수 있습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.