숫자 20이 마법인가요?


12

데이터 피팅 분포에 대해 최소 20의 표본 크기를 고려하도록 권고 한 참고 자료가 있습니다.

이것에 어떤 의미가 있습니까?

감사


3
일반적으로 아니요, 특정 상황에서는 가능합니다. 당신은 참조가 있고 당신의 목표는 무엇입니까?
image_doctor

1
@image_doctor에 동의합니다. 20 번의 관찰을 최소로 간주해야하는 일반적인 이유는 없습니다. 매우 특별한 상황 일 수 있습니다.
Glen_b-복지 주 모니카

3
단일 값 등이 푸 아송 분포로 (확실) 공지 된 경우와 같이, 어떤 실제적인 경우에 작동되고 관찰 큰 수이다. 분포가 적합 할뿐만 아니라 모수 추정의 오류 가능성을 평가할 수 있습니다.
whuber

1
정규 분포의 경우 30이 가장 일반적입니다. 그것은 30 자유도를 가진 학생의 t가 정상에 얼마나 가까운 지와 관련이있는 것 같습니다. 그러나 그것은 단지 경험의 법칙 일뿐입니다. 의 가치가 같은 의미에서 마술이 아닙니다 . e
Wayne

1
예, 20은 마법의 숫자입니다 : en.wikipedia.org/wiki/Magic_number_%28physics%29
Bitwise

답변:


13

이 중 많은 부분이 예상되는 분포와 연구 질문에 따라 다릅니다. 경험적으로, 경험의 법칙에주의해야합니다. 예상 분포를 알고 있으면 크기가 다른 시뮬레이션을 실행하고 표본 시뮬레이션이 실제 분포를 얼마나 자주 반영하는지 결정하십시오. 이렇게하면 최종 필수 샘플 크기로 지침이 제공됩니다.


극단적이고 독단적 인 진술을 피하기 위해 +1.
whuber

1
"거의 법칙에 따라 경험 법칙에주의해야합니다."
볼프강

7

나는 샘플 크기 마술 숫자가 1,000이라고 생각했다. 이것이 대부분의 미국 여론 조사에서 약 3 %의 오차 한계를 생성하기위한 것입니다. 실제로, 효과적인 표본 크기는 더 낮습니다 선택 확률이 같지 않고 무응답 조정으로 인해 700 이상인 1,000 이상인 경우 3.7 %의 오차 한계로 이어집니다.

z0.9750.50.5/1000=1.960.158=0.031

단 20 개의 관측치 만 있으면 기술적으로 매우 높은 왜도 및 첨도를 얻을 수 없습니다 (물론 샘플 표준 편차로 정규화 됨).

|skewness|n2n1=4.58,|kurtosis|n23n+3n1=18.05.
모멘트의 방법으로 분포를 적합시키는 경우 합리적으로 일반적인 로그 분산이 1 인 대수 정규 분포를 말하는 것은 불가능합니다 (중등도 소득 불평등 국가, 미국, 브라질, 남아프리카, 놀랍게도 큰 첨도는 111이므로 러시아는 모두 로그-로그의 분산이 더 높습니다. 20 개의 관측치로 설명 할 수있는 것보다 더 복잡 할 수 있습니다.

분포 밀도에 대한 또 다른 관점은 커널 밀도 추정을 통해 얻을 수 있습니다. 크기의 표본에 대해 가장 인기있는 규칙 은 의 대역폭을 제공합니다. 는 가우스 커널을 사용하여 전체 분포에 효과적으로 적용됩니다. 다시 말해, 크기가 큰 첨도 (Kurtosis)가 명확하지 않은 한, 크기가 20 인 대부분의 샘플은 커널 밀도 추정을 실행하면 정상으로 보입니다 (이는 커널 밀도에서 별도의 충돌로 나타나는 외부 관찰 결과가 있음을 의미합니다) 음모).n=20

h=1.06σ^n1/5=0.58σ^

나는 샘플의 순간에 대한 한계의 관련성을 따르지 않습니다. 물론 샘플에서 매우 높은 왜도 및 첨도 추정치를 얻을 수 있습니다. 그것을 시도 할 때 샘플 평균이고, 인 로그 정규 분포의 순간과 일치 할 때 그 사행 추정 샘플을 SD, . 큰 기하학적 SD가있는 분포에서 표본 을 생성하면 ( 가 효과가 있음) 엄청난 비대칭 추정값을 얻을 수 있습니다. 원시 샘플 왜도가 작 으면 어떻게해야합니까? s ( s / m ) ( 3 + ( s / m ) 2 ) 20 2ms(s/m)(3+(s/m)2)202
whuber

1
샘플 크기로 1000을 사용하는 상황 (프로그래밍과 관련된 통계의 상황에서 다른 곳에 적용됨)에서 "Ten-Power Power Syndrome"에 대한 필수 링크 : zedshaw.com/essays/programmer_stats.html
Gary S. 위버

1
@ whuber, 당신은 너무 똑똑하고 공격하지 않습니다. 대부분의 사람들은 방금 전과 같이 파라 메트릭 가정을 통해서가 아니라 데이터의 순간으로 왜도를 계산합니다. "만약 당신이 순간에 의해 Pearson 분포를 맞추고 있다고 가정 해 봅시다."-이 주장이 관련이 있을까요?
StasK

예, 많은 경우에 관련이 있습니다. 나는 순간의 방법을 사용하여 로그 정규 분포에 적합하도록 제안을 따랐으며 큰 왜곡을 얻었습니다. 처음 두 순간 만 일치했기 때문에 세 번째를 그대로 두었 기 때문입니다. 임의의 큰 세 번째 모멘트를 허용하는 두 개 이하의 매개 변수로 구성된 분포 패밀리를 사용하여 동일한 절차를 수행하면 동일한 현상이 나타날 것입니다. 두 개 이상의 매개 변수가있는 Pearson 제품군을 사용하면 경험적 왜곡을 일치시켜 그 값을 제한 할 수 있습니다.
whuber

2

아니. 원격이 아닙니다.

당신이 10 억 개의 공간 (인간)을 가지고 있고 어떤 방법 (20 명)을 사용하여 20 개의 표본을 추출한다면, 지구상의 모든 사람을 합리적으로 잘 이해하기 위해 얻은 정보를 이용할 수 있습니까? 원격이 아닙니다. 은하계에는 천억 개의 별이 있습니다. 그들 중 20 명을 무작위로 고르면 은하의 천문학을 모두 이해할 수 있습니까? 절대 안돼.

1 차원 공간에는 몇 가지 측정 방법을 설명하는 몇 가지 휴리스틱, 주로 유효한 규칙이 있습니다. 여기에는 다양한 수준의 유용성과 정당성이 포함되지만 "20"보다 더 잘 방어됩니다. 여기에는 "적합 방정식에서 변수 당 5 회 측정", "가우시안 밀도 함수의 최소 35 개 샘플"및 "이항 함수의 최소 300 개 샘플"이 포함됩니다. 나와 같은 괴상한 폭격기가 아닌 실제 통계학자는 첫 번째 원칙과 계산기없이 특정 신뢰 구간과 불확실성을 연관시킬 수 있습니다.

"적합 방정식에서 매개 변수 당 5 개의 측정"규칙을 사용하고 높이 분포 측면에서 2 차원 곡면 이중 입방체 표면의 누적 밀도를 맞추려는 경우 기본 시스템은 , 5 차 다항식 대 입방의 비율입니다. 6 + 4 = 10 계수가 있습니다. 파라미터 당 2 회 측정을 사용하거나 20 회 측정을 사용하여 10 개의 파라미터 값을 맞추려고하면이 휴리스틱을 위반하게됩니다. 이 휴리스틱은 최소 10 * 5 = 50 측정을 권장합니다.a3r3+a2r2+a1r+a0a1r+a0dr

"최고"는 "선의 척도"없이 의미가없는 아이디어라는 것을 기억하십시오. 가장 좋은 길은 무엇입니까? 당신이 당신의 운명에 가고 있다면, 아마도 매우 길고 즐거운 것입니다. 자신의 대관식을 간다면 짧고 웅장한 것일 수도 있습니다. 사막을 걷고 있다면 시원하고 그늘진 곳입니다. "최고의"샘플 수는 얼마입니까? 그것은 당신의 문제에 놀랍도록 의존하기 때문에 그 전에 권위로 대답 할 수 없습니다. 그들 모두? 당신이 할 수있는만큼? 그것들은 조금 이해가됩니다. 예, 그것은 부분적으로 죽거나 임신 한 것과 같습니다. 부분적으로 무의미한 것은 정의가 잘 안된 문제의 결과입니다.

비행기의 기류를 정확하게 예측하려고한다면? 야구장에 들어가려면 수백만 회 측정해야 할 수도 있습니다. 키가 얼마나 큰지 알고 싶다면 한두 가지 일을 할 수 있습니다.

이것은 "공간 스패닝"과 "모수 추정치의 편차를 최소화하는 위치에서의 샘플링"의 중요한 점을 제시하지는 않지만보다 신입생 수준의 답변이 적합 할 것이라고 제안했습니다. 이러한 것들을 구현하기 전에 문제의 본질에 대해 더 많이 알아야합니다.

참고 : 제안 사항별로 개선하도록 편집되었습니다.


1
질문에서 "최소"를 "최대"또는 "충분한"것으로 읽은 것 같습니다. 당신이 쓴 것은 20의 최소 규칙과 모순되는 것으로 보이지 않습니다.
whuber

2
@ whuber, 나는 추가 측정이 비싸다고 생각하는 사람들 사이에서 일하고, 그들에게 "최소 샘플 수"를 제공하면 잠재적 인 샘플 수가 그보다 큰 불평등으로 생각하지 않습니다. 그들은 비용을 최소화하는 최적화 문제의 경계로 생각하고 그 값으로 만 운영하려고합니다. 내 환경의 산물입니다.
EngrStudent

1

아마도 t- 검정 또는 ANOVAR을 수행하는 상황-기본 통계 응용 프로그램에서 매우 일반적인 상황-각 그룹의 평균이 대략적으로 있다는 것을 확신하기 위해 각 그룹에 필요한 샘플 크기 주위에 있습니다. 분포가 다소 단조롭고 극도로 피크가 아닌 것으로 가정 될 수있을 때 정규 분포 (중앙 한계 정리에 따라). 둥근 숫자이기 때문에 스물 & 아홉 또는 스물 하나.


0

Russ Lenth의 검정력 및 표본 크기 페이지 에서 주제에 대한 기사를 확인하십시오 (페이지 중간에있는 조언 섹션에서).

표본의 최소 개인 수는 모집단 크기, 차원 수 (데이터를 범주로 나누는 경우) 및 측정 값 (샘플 개별에 대해 지속적인 측정을 수행하는 경우), 크기에 따라 크게 다릅니다. 당신의 우주, 당신이 사용하고자하는 분석 기법 (이것은 매우 중요한 포인트 기법입니다. 연구 계획 중 또는 실험 설계 중에 정의 되지 않습니다), 그리고 이전 연구에 나타난 복잡성.

20은 "희귀 한 질병"과 "실험 심리학"(포퍼가 자신의 연구에서 정의한 정신)이라는 주제 이외의 심각한 연구에는 충분하지 않습니다.

아래 의견을 바탕으로 답변을 수정하십시오.

그리고 확률 분포를 맞추는 것을 포함하는 "희귀 한 질병"과 "실험 심리학"(그의 작업에 정의 된 Popper와 같은 정신)의 주제 이외의 다른 심각한 연구에는 20만으로는 충분하지 않습니다 .

그리고 아닙니다. 큰 샘플 크기에 도달하기 위해 사람들을 계속 독살해서는 안됩니다. Common Sense 및 Sequential Tests는 중지하도록 명령합니다.


3
나는 20의 표본이 "심각한 연구에 충분하지 않다"는 담요 진술을하는 것이 너무 극단적이라고 생각한다. 이것은 적절한 표본 크기가 목적, 인구 등에 따라 다르다는 이전의 진술과 모순됩니다. 어떤 경우에는 하나의 잘못된 결과가 전체 이론을 죽이기에 충분합니다.
whuber

1
사례 연구와 질적 연구는 1-5 명의 참가자에게 적합합니다.
Behacad

좋아, "사례 연구"와 "포커스 그룹"을 목록에 추가하십시오 :) 이것들은 내가 Popper가 "실험 심리학"이라고하는 말에 포함되어 있습니다.
Lucas Gallindo

4
그러면 천문학, 의학, 생물학, 화학 등을 더 잘 추가 할 수있었습니다. 다시 말해, 20이 충분하지 않다고 주장하는 것만 큼 20이 "충분하지 않다"고 주장하는 것 역시 나쁩니다. 실제로, 아마도 더 나쁠 것입니다. 영양 보충제를 투여 한 처음 8 명의 피험자가 예기치 않은 부작용으로 사망 한 식품 안전 시험을 상상해보십시오. "20만으로는 충분하지 않습니다"라는 진술에 기초하여 지속적인 테스트를 옹호 하시겠습니까?
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.