매우 작은 표본 크기의 회귀


9

4-5 개의 설명 변수를 사용하여 회귀 분석을 실행하려고하지만 15 개의 관측치 만 있습니다. 이러한 변수가 정규 분포를 따른다고 가정 할 수없는 경우 비모수 적이거나 다른 유효한 회귀 방법이 있습니까?


5
설명 변수가 정상이라는 가정은 없습니다. 반응의 한계 분포에 대한 가정도 없습니다. CI 또는 가설 테스트를 수행하는 경우 일반적인 추론은 반응의 조건부 정규성을 가정합니다. 선형성과 상수 분산의 가정이 더 중요합니다. 귀하의 답변은 무엇으로 구성되어 있습니까 (/ 왜 정상이 아님)?
Glen_b-복지 주 모니카

3
아니요. 데이터가 충분하지 않습니다. 이것은 탐색 적 분석입니다. 암시적인 관계를 잘 보셨을 것입니다. 그러나 p- 값, 신뢰 구간 및 가설 검정은 피해야합니다.
찰스

답변:


10

@Glen_b는 회귀 분석 1 의 정규성 가정의 본질에 관한 것입니다 .

더 큰 문제는 4-5 개의 설명 변수를 지원하기에 충분한 데이터가 없다는 것입니다. 경험 법 2 의 표준 규칙은 설명 변수 당 최소 10 개의 데이터, 즉 귀하의 경우 40 또는 50 개의 데이터를 가져야한다는 것입니다 (이는 가정에 대한 의문이없는 이상적인 상황에 대한 것입니다). 모델이 완전히 포화되지 않았기 때문에 3(적합 할 수있는 모수보다 많은 데이터가 있음) 모수 (기울기 등) 추정값을 얻을 수 있으며 이상적인 상황에서는 추정치가 무의식적으로 편향되지 않습니다. 그러나 추정치가 실제 값에서 멀리 떨어져 있고 SE / CI가 매우 클 가능성이 높으므로 통계적 힘이 없습니다. 비모수 또는 다른 대안의 회귀 분석을 사용해도이 문제에서 벗어날 수는 없습니다.

여기서해야 할 일은 해당 분야의 이전 이론이나 직감을 기반으로 단일 설명 변수 (데이터를보기 전에!)를 선택하거나 설명 변수를 결합해야합니다. 후자의 옵션에 대한 합리적인 전략은 주성분 분석 (PCA) 을 실행 하고 첫 번째 주성분을 설명 변수로 사용하는 것입니다.

참조 :
1. 잔차가 정규 분포를 따르지만 Y가 분포되지 않은 경우 어떻게해야합니까?
2. 다중 회귀 분석을위한 최소 표본 크기에 대한 경험 법칙
3. 다중 회귀 방정식에 입력 할 수있는 최대 독립 변수 수

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.