여기 몇 가지 문제가 있습니다.
일반적으로 최소 허용 가능한 통계적 수준을 달성하기 위해 최소 표본 크기를 결정하려고합니다 . 필요한 샘플 크기는 여러 요소, 주로 0과 구별 할 수있는 효과의 크기 (또는 사용하는 null이지만 0이 가장 일반적 임)와 해당 효과를 잡을 수있는 최소 확률의 함수입니다. 갖고 싶다. 이러한 관점에서 볼 때 표본 크기는 검정력 분석에 의해 결정됩니다.
또 다른 고려 사항은 @cbeleites 메모와 같이 모델의 안정성입니다. 데이터의 수를 추정 매개 변수의 비율이 1에 가까이 가져 기본적으로, 모델이 포화 될 것이며, 할 필요는 있을 overfit (이 없다면, 사실, 시스템의 어떤 랜덤). 엄지 손가락의 1 대 10 비율은이 관점에서 비롯됩니다. 적절한 힘을 가짐으로써 일반적으로이 문제를 해결할 수 있지만 그 반대의 경우는 아닙니다.
1에서 10까지의 규칙은 선형 회귀 세계에서 나 왔으며 로지스틱 회귀에는 추가 복잡성이 있음을 인식하는 것이 중요합니다. 한 가지 문제는 로지스틱 회귀 분석이 1과 0의 백분율이 약 50 % / 50 % 일 때 가장 잘 작동한다는 것입니다 (@andrea 및 @psj가 위의 설명에서 설명 함). 또 다른 문제는 분리 입니다. 즉, 1의 모든 것을 독립 변수 (또는 이들의 조합)의 극단에 모으고 싶지 않고 다른 모든 극단에 0을 모으고 싶지 않습니다. 이것은 좋은 상황처럼 보이지만 완벽한 예측을 쉽게 할 수 있기 때문에 실제로 매개 변수 추정 프로세스가 폭발합니다. (@Scortchi는 로지스틱 회귀 분석에서 분리를 처리하는 방법에 대한 훌륭한 토론을했습니다.로지스틱 회귀 분석에서 완벽한 분리를 처리하는 방법은 무엇입니까? ) IV가 많을수록 효과의 실제 크기가 일정하게 유지되는 경우, 특히 반응의 균형이 맞지 않는 경우에도 더욱 가능성이 높아집니다. 따라서 IV 당 10 개 이상의 데이터가 쉽게 필요할 수 있습니다.
이 경험 법칙의 마지막 문제는 IV가 직교 라고 가정한다는 것 입니다. 이것은 설계된 실험에는 합리적이지만 귀하와 같은 관찰 연구를 통해 IV는 거의 직교하지 않습니다. 이러한 상황을 처리하기위한 전략이 있습니다 (예 : IV의 결합 또는 삭제, 주요 구성 요소 분석 수행 등). 그러나 해결되지 않으면 (일반적인) 더 많은 데이터가 필요합니다.
그렇다면 합리적인 질문은 최소 N이 무엇이고, 샘플 크기가 충분한가? 이 문제를 해결하기 위해 @cbeleites가 논의하는 방법을 사용하는 것이 좋습니다. 1에서 10까지의 규칙에 의존하는 것만으로는 충분하지 않습니다.
1
들)이고 90 개가 아닌 경우 (0
들) 인 경우 규칙에 "1 개의 예측 변수 만 포함"이 표시됩니다. 그러나0
의 대신 모형을 모델링1
한 다음 추정 된 승산 비의 역수를 취하면 어떻게됩니까? 예측 변수를 9 개 포함 할 수 있습니까? 그건 말이되지 않습니다.