충분히 큰 표본 크기로 30을 사용할 수 있도록하기 위해 어떤 참고 문헌을 인용해야합니까?


41

나는 적어도 30 단위의 샘플 크기가 "큰 샘플"로 간주된다는 것을 여러 번 읽었습니다. 따라서 실험에서 일반적으로 30 단위의 샘플을 생성합니다. 샘플 크기 30을 사용할 때 인용해야 할 내용을 알려주시겠습니까?


2
추정하려는 매개 변수의 수 또는 작업중 인 모델의 종류를 참조하지 않으면 명확한 대답을하기가 다소 어려워 보입니다.
chl

2
작은 샘플과 큰 샘플의 경계로 n = 30을 허용하는 것은 통계 기술에 의해 잘 뒷받침되지 않습니다.
Jibol

답변:


37

작은 샘플과 큰 샘플 사이의 경계에 대해 n = 30을 선택 하는 것은 경험에 한합니다. 예를 들어 Hogg and Tanis의 Probability and Statistical Inference (7e)는 "25 또는 30보다 큼" 과 같이이 값을 인용하는 책이 많이 있습니다.

즉, 이야기는 30이 좋은 경계로 여겨지는 유일한 이유 는 교과서 뒤에있는 예쁜 학생의 t 테이블이 한 페이지에 잘 들어 맞기 때문 이었다는 것 입니다. 즉, 임계 값 (Student 's t 와 Normal 사이 )은 어쨌든 df = 30에서 df = 무한대까지 약 0.25까지만 꺼져 있습니다. 손 계산의 경우 그 차이는 실제로 중요하지 않았습니다.

요즘에는 모든 종류의 물건에 대한 임계 값을 소수점 이하 15 자리까지 쉽게 계산할 수 있습니다. 게다가 우리는 파라 메트릭 모집단 분포로 제한되지 않는 리샘플링 및 순열 방법도 있습니다.

실제로 저는 n = 30 에 의존하지 않습니다 . 데이터를 플로팅합니다. 원하는 경우 정규 분포를 중첩하십시오. 정규 근사치가 적절한 지 육안으로 평가하고 근사치가 실제로 필요한지 묻습니다. 연구를 위해 샘플을 생성하고 근사치가 필수 인 경우, 근사값을 원하는만큼 가깝게 (또는 계산 상 가능한 한 가깝게) 만들기에 충분한 표본 크기를 생성하십시오.


13
다음은 t 분포의 정규 근사가 n = 30에 얼마나 정확한지에 대한 페이지입니다. johndcook.com/normal_approx_to_t.html
John D. Cook

41

실제로, "매직 넘버"(30)는 오류이다. Jacob 's Cohen의 유쾌한 논문, 내가 배운 것들 (지금까지) (Am. Psych. December 1990 45 # 12, pp 1304-1312) 참조 . 이 신화는 "당신이 배우는 것들이 그렇지 않다"는 그의 첫 번째 예입니다.

n=30.05.47


2
아름다운 참조 및 관련성에 주목하십시오. 감사합니다.
whuber

1
@whuber 어떤 종이인지 기억하십니까? 링크는 지금 끊어졌습니다. 아마도이 psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf , "내가 배운 것들 (지금까지)"? 연도가 끊어진 링크의 URL에있는 연도와 일치합니다.
amoeba는 Reinstate Monica가

1
@Amoeba이 논문을 읽을 때이 논문을 저장 했으므로 찾은 것이 의도 된 것인지 확인할 수 있습니다. 귀하의 링크와 함께 인용을 포함하도록이 답변을 업데이트했습니다.
whuber

@Carlos Accioly 이전 링크가 깨졌을 때 새 링크로 업데이트했습니다.
Akshay Bansal

9

IMO는 모두 샘플을 사용하려는 대상에 따라 다릅니다. 내가 의미하는 바를 설명하기위한 두 개의 "실리 한"예 : 평균을 추정해야하는 경우 30 번의 관측치만으로 충분합니다. 예측 변수가 100 개인 선형 회귀를 추정해야하는 경우 30 개의 관측치가 충분하지 않습니다.


9

μ¯(n)

보다 일반적으로 CLT에는 다음 두 가지 기둥이 필요합니다.

  1. 랜덤 변수는 독립적입니다. 즉, 정보를 잃지 않고 관측 값을 다시 정렬 할 수 있습니다 *.
  2. rv는 유한 한 2 차 모멘트를 갖는 분포에서 나옵니다. 즉, 평균 및 sd의 고전 추정량은 표본 크기가 증가함에 따라 수렴하는 경향이 있습니다.

(이러한 조건은 다소 약화 될 수 있지만 차이점은 대체로 이론적 인 특성입니다)


6
귀하의 예는 강력한 통계의 가치를 보여줍니다. 샘플 평균이 아니라 코시 분포의 위치 매개 변수를 추정하고있다. 30 개의 샘플로 t- 검정을 사용할 때 가장 약한 링크는 30 개의 샘플이 아니라 t- 테스트라고 주장 할 수 있습니다.
John D. Cook

1
John :> "30 개의 샘플로 t- 검정을 사용할 때 가장 약한 연결은 30 개의 샘플이 아니라 t- 테스트라고 주장 할 수 있습니다." 매우 사실이며 데이터가 iid 라는 가정도 있습니다 . 또한, 중앙값은 Cauchy 분포 랜덤 변수 (및 따라서 효율적)에 대한 MLE이지만 일반적으로 30 개 이상의 관측치가 필요할 수 있습니다.
user603

1
CLT의 모든 버전이 동일하게 배포되거나 심지어 독립성에 의존하는 것은 아닙니다. 학부생들에게 가르치는 기본적인 것들이 종종 있지만, 두 가지 가정을 모두하지 않는 버전이 있습니다. 예를 들어 Lyapunov CLT 는 독립을 가정하지만 동일한 분포를 가정하지 않으며 독립 조건도 완화 될 수 있습니다 (예 : 여기 참조) . 그 '재주문'도 독립성과 동일하지 않습니다. 어떤 형태의 의존은 질서에 의존하지 않습니다.
Glen_b 2016 년

2
CLT가 로그 정규 분포의 평균에 대한 신뢰 구간을 계산하기에 충분하게 작동하기에는 표본 크기 50,000이 충분하지 않습니다.
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.