답변:
사소한 대답은 적은 데이터보다 많은 데이터가 항상 선호된다는 것입니다.
작은 표본 크기의 문제는 분명합니다. 선형 회귀 (OLS)에서는 기술적으로 n = k + 1 인 OLS와 같은 모델에 적합하지만 매우 큰 표준 오차와 같이 쓰레기를 얻을 수 있습니다. Arthur Goldberger가이 주제에 대해 Micronumerocity라고하는 훌륭한 논문이 있습니다.이 논문은 그의 책 Econometrics의 23 장에 요약되어 있습니다.
일반적인 휴리스틱은 추정하려는 모든 모수에 대해 20 개의 관측치가 있어야한다는 것입니다. 항상 표준 오차의 크기 (및 유의성 검정)와 표본 크기 사이의 균형을 유지합니다. 이것은 우리 중 일부가 거대한 표본으로 엄청나게 작은 (상대) 표준 오차를 얻을 수 있으므로 회귀 계수가 0인지 여부와 같은 순진한 시험에서 무의미한 통계적 유의성을 찾을 수 있기 때문에 유의성 테스트를 싫어하는 이유 중 하나입니다.
표본 크기가 중요하지만 표본의 품질이 더 중요합니다 (예 : 표본이 모집단에 일반화 가능한지 여부, 단순 임의 표본 또는 다른 적절한 표본 추출 방법론입니까 (분석 중에 설명했습니까), 측정 오류가 있습니까? , 응답 바이어스, 선택 바이어스 등
항상 충분히 커야합니다! ;)
모든 모수 추정값에는 추정 불확실성이 있으며, 이는 표본 크기에 의해 결정됩니다. 회귀 분석을 수행 하면 입력 데이터 세트에서 Χ 2 분포가 구성 되었음을 상기시키는 것이 도움이 됩니다. 모형에 5 개의 모수가 있고 5 개의 데이터 점이있는 경우 Χ 2 분포 의 단일 점만 계산할 수 있습니다 . 최소값을 최소화해야하므로 최소 한 점으로 추측 할 수 있지만 추정 된 매개 변수에 무한 오류를 지정해야합니다. 더 많은 데이터 점을 가지면 모수 공간을 더 잘 매핑 할 수있어 최소 Χ 2 분포 의 추정치가 더 좋고 추정기 오차가 줄어 듭니다.
대신 최대 가능성 추정값을 사용하겠습니까? 상황이 비슷할 것입니다. 데이터 포인트가 많을수록 최소값을 더 잘 추정 할 수 있습니다.
점 분산에 대해서도이 모형을 모델링해야합니다. 더 많은 데이터 포인트가 있으면 "중앙 한계 정리로 인해" "진정한"값 주위의 포인트 클러스터링이보다 명백해지며 해당 포인트의 실제 값으로 다운 될 가능성이 큰 큰 변동을 해석 할 위험이 있습니다. 그리고 다른 매개 변수의 경우 점 분산에 대한 추정치는 더 많은 데이터 점이 더 안정적입니다.
이와 관련하여 두 가지 경험 법칙을 들었습니다. 예를 들어 20 또는 30과 같은 중심 한계 정리를 불러 일으킬 수있는 오차 항에 충분한 관측치가있는 한 괜찮습니다. 다른 하나는 각각의 추정 된 경사에 대해 적어도 20 또는 30 개의 관측치가 있어야한다고 주장합니다. 목표 수로 20 또는 30을 사용하는 것의 차이점은 중앙 한계 정리를 합리적으로 불러 일으킬 충분한 관측치가있을 때의 다른 생각에 근거합니다.