데이터 피팅 분포에 대해 최소 20의 표본 크기를 고려하도록 권고 한 참고 자료가 있습니다.
이것에 어떤 의미가 있습니까?
감사
데이터 피팅 분포에 대해 최소 20의 표본 크기를 고려하도록 권고 한 참고 자료가 있습니다.
이것에 어떤 의미가 있습니까?
감사
답변:
나는 샘플 크기 마술 숫자가 1,000이라고 생각했다. 이것이 대부분의 미국 여론 조사에서 약 3 %의 오차 한계를 생성하기위한 것입니다. 실제로, 효과적인 표본 크기는 더 낮습니다 선택 확률이 같지 않고 무응답 조정으로 인해 700 이상인 1,000 이상인 경우 3.7 %의 오차 한계로 이어집니다.
단 20 개의 관측치 만 있으면 기술적으로 매우 높은 왜도 및 첨도를 얻을 수 없습니다 (물론 샘플 표준 편차로 정규화 됨).
분포 밀도에 대한 또 다른 관점은 커널 밀도 추정을 통해 얻을 수 있습니다. 크기의 표본에 대해 가장 인기있는 규칙 은 의 대역폭을 제공합니다. 는 가우스 커널을 사용하여 전체 분포에 효과적으로 적용됩니다. 다시 말해, 크기가 큰 첨도 (Kurtosis)가 명확하지 않은 한, 크기가 20 인 대부분의 샘플은 커널 밀도 추정을 실행하면 정상으로 보입니다 (이는 커널 밀도에서 별도의 충돌로 나타나는 외부 관찰 결과가 있음을 의미합니다) 음모).
아니. 원격이 아닙니다.
당신이 10 억 개의 공간 (인간)을 가지고 있고 어떤 방법 (20 명)을 사용하여 20 개의 표본을 추출한다면, 지구상의 모든 사람을 합리적으로 잘 이해하기 위해 얻은 정보를 이용할 수 있습니까? 원격이 아닙니다. 은하계에는 천억 개의 별이 있습니다. 그들 중 20 명을 무작위로 고르면 은하의 천문학을 모두 이해할 수 있습니까? 절대 안돼.
1 차원 공간에는 몇 가지 측정 방법을 설명하는 몇 가지 휴리스틱, 주로 유효한 규칙이 있습니다. 여기에는 다양한 수준의 유용성과 정당성이 포함되지만 "20"보다 더 잘 방어됩니다. 여기에는 "적합 방정식에서 변수 당 5 회 측정", "가우시안 밀도 함수의 최소 35 개 샘플"및 "이항 함수의 최소 300 개 샘플"이 포함됩니다. 나와 같은 괴상한 폭격기가 아닌 실제 통계학자는 첫 번째 원칙과 계산기없이 특정 신뢰 구간과 불확실성을 연관시킬 수 있습니다.
"적합 방정식에서 매개 변수 당 5 개의 측정"규칙을 사용하고 높이 분포 측면에서 2 차원 곡면 이중 입방체 표면의 누적 밀도를 맞추려는 경우 기본 시스템은 , 5 차 다항식 대 입방의 비율입니다. 6 + 4 = 10 계수가 있습니다. 파라미터 당 2 회 측정을 사용하거나 20 회 측정을 사용하여 10 개의 파라미터 값을 맞추려고하면이 휴리스틱을 위반하게됩니다. 이 휴리스틱은 최소 10 * 5 = 50 측정을 권장합니다.
"최고"는 "선의 척도"없이 의미가없는 아이디어라는 것을 기억하십시오. 가장 좋은 길은 무엇입니까? 당신이 당신의 운명에 가고 있다면, 아마도 매우 길고 즐거운 것입니다. 자신의 대관식을 간다면 짧고 웅장한 것일 수도 있습니다. 사막을 걷고 있다면 시원하고 그늘진 곳입니다. "최고의"샘플 수는 얼마입니까? 그것은 당신의 문제에 놀랍도록 의존하기 때문에 그 전에 권위로 대답 할 수 없습니다. 그들 모두? 당신이 할 수있는만큼? 그것들은 조금 이해가됩니다. 예, 그것은 부분적으로 죽거나 임신 한 것과 같습니다. 부분적으로 무의미한 것은 정의가 잘 안된 문제의 결과입니다.
비행기의 기류를 정확하게 예측하려고한다면? 야구장에 들어가려면 수백만 회 측정해야 할 수도 있습니다. 키가 얼마나 큰지 알고 싶다면 한두 가지 일을 할 수 있습니다.
이것은 "공간 스패닝"과 "모수 추정치의 편차를 최소화하는 위치에서의 샘플링"의 중요한 점을 제시하지는 않지만보다 신입생 수준의 답변이 적합 할 것이라고 제안했습니다. 이러한 것들을 구현하기 전에 문제의 본질에 대해 더 많이 알아야합니다.
참고 : 제안 사항별로 개선하도록 편집되었습니다.
아마도 t- 검정 또는 ANOVAR을 수행하는 상황-기본 통계 응용 프로그램에서 매우 일반적인 상황-각 그룹의 평균이 대략적으로 있다는 것을 확신하기 위해 각 그룹에 필요한 샘플 크기 주위에 있습니다. 분포가 다소 단조롭고 극도로 피크가 아닌 것으로 가정 될 수있을 때 정규 분포 (중앙 한계 정리에 따라). 둥근 숫자이기 때문에 스물 & 아홉 또는 스물 하나.
Russ Lenth의 검정력 및 표본 크기 페이지 에서 주제에 대한 기사를 확인하십시오 (페이지 중간에있는 조언 섹션에서).
표본의 최소 개인 수는 모집단 크기, 차원 수 (데이터를 범주로 나누는 경우) 및 측정 값 (샘플 개별에 대해 지속적인 측정을 수행하는 경우), 크기에 따라 크게 다릅니다. 당신의 우주, 당신이 사용하고자하는 분석 기법 (이것은 매우 중요한 포인트 기법입니다. 연구 계획 중 또는 실험 설계 중에 정의 되지 않습니다), 그리고 이전 연구에 나타난 복잡성.
20은 "희귀 한 질병"과 "실험 심리학"(포퍼가 자신의 연구에서 정의한 정신)이라는 주제 이외의 심각한 연구에는 충분하지 않습니다.
그리고 확률 분포를 맞추는 것을 포함하는 "희귀 한 질병"과 "실험 심리학"(그의 작업에 정의 된 Popper와 같은 정신)의 주제 이외의 다른 심각한 연구에는 20만으로는 충분하지 않습니다 .
그리고 아닙니다. 큰 샘플 크기에 도달하기 위해 사람들을 계속 독살해서는 안됩니다. Common Sense 및 Sequential Tests는 중지하도록 명령합니다.