로지스틱 회귀 분석의 표본 크기?


26

설문 조사 데이터에서 물류 모델을 만들고 싶습니다. 응답자 154 명만 인터뷰 한 4 개의 거주지 식민지에 대한 소규모 조사입니다. 내 종속 변수는 "만족스러운 전환으로 작동"입니다. 154 명의 응답자 중 73 명은 만족스럽게 직장으로 전환했지만 나머지는 그렇지 않다는 것을 알았습니다. 따라서 종속 변수는 본질적으로 이진이며 로지스틱 회귀를 사용하기로 결정했습니다. 7 개의 독립 변수가 있습니다 (3 개의 연속 및 4 개의 명목). 한 지침은 각 예측 변수 / 독립 변수에 대해 10 개의 사례가 있어야한다고 제안합니다 (Agresti, 2007). 이 지침을 바탕으로 로지스틱 회귀 분석을 실행해도된다고 생각합니다.

내가 맞아? 그렇지 않은 경우 독립 변수의 수를 결정하는 방법을 알려주십시오.


3
나는 "각 예측 자에 대해 10 건"이라고 말하는 경험 법칙을 실제로 이해 한 적이 없다 (불행히도 나는 Agresti가 쓴 책에 접근 할 수 없다). 내가 의미하는 바는 100 개의 과목 중 10 개가 사례 ( 1들)이고 90 개가 아닌 경우 ( 0들) 인 경우 규칙에 "1 개의 예측 변수 만 포함"이 표시됩니다. 그러나 0의 대신 모형을 모델링 1한 다음 추정 된 승산 비의 역수를 취하면 어떻게됩니까? 예측 변수를 9 개 포함 할 수 있습니까? 그건 말이되지 않습니다.
boscovich

친애하는 안드레아, 당신도 같은 말을했습니다. 154 명의 응답자 중 73 명 (1과 나머지 0)이 있습니다. 내 질문에 불을 붙일 수 있습니까? 감사합니다!
Braj-Stat

4
논평에서 나는 최소한의 사건과 사건이 아닌 것을 봐야한다는 것을 읽었습니다. 따라서 10/100의 예에서는 코딩 방법에 관계없이 하나의 예측 변수로 끝납니다.
psj

합리적으로 들리는 @psj. 당신은 어떤 참조가 있습니까?
boscovich

1
여기에 관련 토론이 있습니다. 최소 회귀 수-로지스틱 회귀 분석 .
gung-모니 티 복원

답변:


25

여기 몇 가지 문제가 있습니다.

일반적으로 최소 허용 가능한 통계적 수준을 달성하기 위해 최소 표본 크기를 결정하려고합니다 . 필요한 샘플 크기는 여러 요소, 주로 0과 구별 할 수있는 효과의 크기 (또는 사용하는 null이지만 0이 가장 일반적 임)와 해당 효과를 잡을 수있는 최소 확률의 함수입니다. 갖고 싶다. 이러한 관점에서 볼 때 표본 크기는 검정력 분석에 의해 결정됩니다.

또 다른 고려 사항은 @cbeleites 메모와 같이 모델의 안정성입니다. 데이터의 수를 추정 매개 변수의 비율이 1에 가까이 가져 기본적으로, 모델이 포화 될 것이며, 할 필요는 있을 overfit (이 없다면, 사실, 시스템의 어떤 랜덤). 엄지 손가락의 1 대 10 비율은이 관점에서 비롯됩니다. 적절한 힘을 가짐으로써 일반적으로이 문제를 해결할 수 있지만 그 반대의 경우는 아닙니다.

1에서 10까지의 규칙은 선형 회귀 세계에서 나 왔으며 로지스틱 회귀에는 추가 복잡성이 있음을 인식하는 것이 중요합니다. 한 가지 문제는 로지스틱 회귀 분석이 1과 0의 백분율이 약 50 % / 50 % 일 때 가장 잘 작동한다는 것입니다 (@andrea 및 @psj가 위의 설명에서 설명 함). 또 다른 문제는 분리 입니다. 즉, 1의 모든 것을 독립 변수 (또는 이들의 조합)의 극단에 모으고 싶지 않고 다른 모든 극단에 0을 모으고 싶지 않습니다. 이것은 좋은 상황처럼 보이지만 완벽한 예측을 쉽게 할 수 있기 때문에 실제로 매개 변수 추정 프로세스가 폭발합니다. (@Scortchi는 로지스틱 회귀 분석에서 분리를 처리하는 방법에 대한 훌륭한 토론을했습니다.로지스틱 회귀 분석에서 완벽한 분리를 처리하는 방법은 무엇입니까? ) IV가 많을수록 효과의 실제 크기가 일정하게 유지되는 경우, 특히 반응의 균형이 맞지 않는 경우에도 더욱 가능성이 높아집니다. 따라서 IV 당 10 개 이상의 데이터가 쉽게 필요할 수 있습니다.

이 경험 법칙의 마지막 문제는 IV가 직교 라고 가정한다는 것 입니다. 이것은 설계된 실험에는 합리적이지만 귀하와 같은 관찰 연구를 통해 IV는 거의 직교하지 않습니다. 이러한 상황을 처리하기위한 전략이 있습니다 (예 : IV의 결합 또는 삭제, 주요 구성 요소 분석 수행 등). 그러나 해결되지 않으면 (일반적인) 더 많은 데이터가 필요합니다.

그렇다면 합리적인 질문은 최소 N이 무엇이고, 샘플 크기가 충분한가? 이 문제를 해결하기 위해 @cbeleites가 논의하는 방법을 사용하는 것이 좋습니다. 1에서 10까지의 규칙에 의존하는 것만으로는 충분하지 않습니다.


6
"한 가지 문제는 1과 0의 백분율이 약 50 % / 50 % 일 때 로지스틱 회귀가 가장 잘 작동한다는 것"이라는 문에 대한 참조를 제공 할 수 있습니까? 50/50에서 매우 멀리 떨어져있는 데이터 세트가 있고 그 의미가 궁금합니다. (실을 부활 시켜서 죄송합니다)
Trevor

3
오래된 스레드가 적절할 때 오래된 스레드를 부활시키는 데 아무런 문제가 없습니다. @ Trevor. 나는 당신이 찾고있는 것이 켤레 사전 : do-an-unbalanced-sample-matter-when-doing-logistic-regression에 의한이 멋진 대답의 선을 따라 있다고 생각합니다 .
gung-모니 티 복원

2
트레버의 질문에 +1. 로지스틱 회귀 분석은 데이터가 동일한 경우에도 수익이 감소하더라도 새로운 데이터의 이점을 계속 누릴 수 있다고 생각합니다. 그것은 실제로 임의의 숲과 같은 기계 학습 기술에 대해 귀찮게했던 것입니다. 불균형이 너무 심해지면 수치 적 고려로 인해 로지스틱 회귀 분석이 중단되는 시점이있을 수 있습니다. 이것에 대해 더 많이 배우고 싶습니다.
Ben Ogorek

+1, 아마도 이것이 당신의 대답에 의해 암시 될 수 있습니다. 확실하지 않지만, 다른 수준의 범주 형 변수에 이것이 어떻게 작동하는지 궁금합니다. 레벨 당 10 개의 관측치를 갖는 것이 제안됩니까?
baxx

1
경험치 인 @baxx이지만 백분율을 추정하는 것 이상을 수행하려면 최소한 45 개가 필요합니다.
gung-Reinstate Monica

16

나는 일반적으로 15 : 1 규칙 (최소 (이벤트, 비 이벤트)의 비율 대 모델 의 후보 매개 변수 수 )을 사용합니다. 보다 최근의 연구 는보다 엄격한 검증을 위해서는 20 : 1이 필요하다는 것을 발견했습니다. 더 자세한 정보는 http://biostat.mc.vanderbilt.edu/rms 에서 링크 된 나의 과정 유인물 , 특히 가로 채기를 추정하기위한 최소 샘플 크기 96에 대한 인수에서 찾을 수 있습니다 . 그러나 샘플 크기 요구 사항이 더 미묘 해졌으며 훨씬 더 최근의 논문 이이를보다 포괄적으로 다룹니다.


14

일반적으로 너무 적은 경우가 있습니다. 모델 복잡도 (매개 변수 수)는 모델이 불안정 함을 의미합니다 . 따라서 표본 크기 / 모델 복잡성이 올바른지 알고 싶다면 합리적으로 안정적인 모델을 얻을 수 있는지 확인하십시오.

적어도 두 가지 종류의 불안정성이 있습니다.

  1. 모델 매개 변수는 학습 데이터 만 약간의 변화와 많이 다릅니다.

  2. 훈련 데이터의 약간의 변화로 훈련 된 모델 의 예측 (같은 경우)은 매우 다양합니다.

훈련 데이터가 약간 혼란 스러울 경우 모델 계수가 얼마나 변하는 지 살펴봄으로써 1을 측정 할 수 있습니다. 적합한 모델 묶음은 예를 들어 부트 스트랩 또는 (정격 된) 교차 검증 절차 중에 계산 될 수 있습니다.

일부 유형의 모델 또는 문제의 경우 다양한 매개 변수가 다양한 예측을 암시하지 않습니다. 부트 스트랩 외 또는 반복 교차 검증 중에 계산 된 동일한 사례 (정확한지 여부에 상관없이)에 대한 예측 변동을 확인하여 불안정성을 직접 확인할 수 있습니다.


5

엄격한 규칙은 없지만 명목 변수에 범주가 너무 많지 않은 한 모든 독립 변수를 포함 할 수 있습니다. 각 명목 변수에 대한 클래스 중 하나를 제외하고 모두 하나의 "베타"가 필요합니다. 따라서 명목 변수가 "작업 영역"이라고 말하고 30 개의 영역이 있다면 29 개의 베타가 필요합니다.

이 문제를 극복하는 한 가지 방법은 베타를 정규화하거나 큰 계수에 대한 처벌을하는 것입니다. 이를 통해 모형이 데이터에 과적 합하지 않도록 할 수 있습니다. L2 및 L1 정규화는 널리 사용되는 선택입니다.

고려해야 할 또 다른 문제는 샘플이 얼마나 대표적인지입니다. 어떤 인구를 추론하고 싶습니까? 모집단에있는 모든 유형의 사람들이 표본에 있습니까? 표본에 "구멍"이있는 경우 정확한 추론을하기가 어려울 것입니다 (예 : 표본에 35-50 세의 여성이 없거나 고소득 근로자가없는 경우 등)


4

다음은 MedCalc 웹 사이트 사용자의 실제 답변입니다.

http://www.medcalc.org/manual/logistic_regression.php

샘플 크기 고려 사항

로지스틱 회귀 분석을위한 표본 크기 계산은 복잡한 문제이지만 Peduzzi et al. (1996) 연구에 포함 할 최소 사례 수에 대한 다음 지침을 제안 할 수 있습니다. 모집단에서 p가 음수 또는 양수인 경우의 비율 중 가장 작고 k가 공변량 수 (독립 변수 수) 인 경우 포함 할 최소 수는 다음과 같습니다. N = 10 k / p 예를 들면 다음과 같습니다. 모형에 포함 할 공변량이 3 개이고 모집단의 양성 사례 비율이 0.20 (20 %)입니다. 필요한 최소 사례 수는 N = 10 x 3 / 0.20 = 150입니다. 결과 수가 100보다 작 으면 Long (1997)에서 제안한대로 100으로 늘려야합니다.

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) 로지스틱 회귀 분석에서 변수 당 이벤트 수에 대한 시뮬레이션 연구. 임상 역학 저널 49 : 1373-1379.


따라서 독립 변수 (플로어 포함) 당 동일한 10 건입니다.
seanv507

1

최소 5에서 9까지의 독립 변수 당 관측치 수가있는 모든 로지스틱 모델의 결과는 신뢰할 수 있습니다. 특히 결과가 통계적으로 유의하면 (Vittinghoff & McCulloch, 2007).

Vittinghoff, E., & McCulloch, CE 2007. 로지스틱 및 콕스 회귀 분석에서 변수 당 10 개의 이벤트 규칙을 완화합니다. 미국 역학 저널, 165 (6) : 710–718.


문제가되는 것은 "독립 변수 당 관측치 수"가 아니라 "이벤트 수"입니다. 로지스틱 회귀 분석의 경우 "이벤트 수"는 두 결과 클래스 중 가장 빈번한 경우의 수입니다. 이는 총 관측치 수의 1/2보다 크지 않으며 일부 응용 분야에서는 그보다 훨씬 낮습니다.
EdM
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.