나는 거기에 이유를하지 않았다 N
및 N-1
인구 분산을 계산하는 동안. 우리가 언제 사용할 N
때 N-1
?
인구가 매우 많을 때 N과 N-1 사이에는 차이가 없지만 처음에 N-1이 왜 있는지는 알 수 없습니다.
편집 : 견적 n
과 혼동하지 마십시오 n-1
.
Edit2 : 인구 추정에 대해서는 이야기하지 않습니다.
나는 거기에 이유를하지 않았다 N
및 N-1
인구 분산을 계산하는 동안. 우리가 언제 사용할 N
때 N-1
?
인구가 매우 많을 때 N과 N-1 사이에는 차이가 없지만 처음에 N-1이 왜 있는지는 알 수 없습니다.
편집 : 견적 n
과 혼동하지 마십시오 n-1
.
Edit2 : 인구 추정에 대해서는 이야기하지 않습니다.
답변:
N ( N - 1 ) / N이 = 1 - ( 1 / N ) 1 - 2 / N (1) - 17 / N의 EXP ( - 1 / N ) 은 모집단 크기이고 은 표본 크기입니다. 이 질문은 모집단 분산이 평균보다 곱하기 보다는 평균에서 평균 제곱 편차 인 이유를 묻습니다 . 그 문제에 대해 왜 거기서 멈춰? 예를 들어 평균 제곱 편차에 또는 또는 곱하지 않는 이유는 무엇 입니까?
실제로하지 말아야 할 좋은 이유가 있습니다. 방금 언급 한 이러한 수치는 인구 내에서 "전형적인 스프레드"를 정량화하는 방법으로 사용됩니다. 그러나 모집단 규모에 대한 사전 지식이 없으면 무작위 표본을 사용하여 그러한 수치의 편견 추정기를 찾을 수 없습니다. 표본 평균의 평균 제곱 편차에 을 곱한 표본 분산 은 대체 표본 추출시 일반적인 모집단 분산의 편견 추정치 라는 것을 알고 있습니다. (우리는 을 알기 때문에이 수정에는 아무런 문제가 없습니다 !) 따라서 표본 분산은 과 같이 배수가 여러 개인 모집단 분산의 편향 추정값이됩니다.N 1 - 1 / N, 사전에 정확히 알려지지 않았습니다.
알 수없는 양의 바이어스에 대한이 문제는 t- 검정 및 F- 검정을 포함하여 표본 분산을 사용하는 모든 통계 검정에 전파됩니다. 실제로 모집단 분산 공식에서 이외의 값으로 나누 려면 t- 통계량 및 F- 통계량 (및 기타 여러 테이블)의 모든 통계 표를 변경해야 하지만 조정은 모집단 크기에 따라 다릅니다. 아무도 가능한 모든 에 대해 테이블을 만들고 싶어하지 않습니다 ! 특히 필요하지 않은 경우.N
실제적인 문제로서, 사용하는만큼 작은 대신에 공식의 차이를 만드는 것은, 당신은 일반적으로 않는 인구의 크기를 알고 (또는 정확하게 추측 할 수 있습니다) 당신은 가능성이 훨씬 더 실질적인에 의존 할 작은 인구 모집단에서 임의의 샘플 (교체없이)로 작업 할 때의 보정 . 다른 모든 경우 누가 신경 쓰나요? 차이는 중요하지 않습니다. 이러한 이유로 교육 학적 고려 사항 (즉, 중요하지 않은 세부 사항에 중점을두고 중요하지 않은 세부 사항에 중점을 두어야 함)에 따라 일부 우수한 입문 통계 텍스트 는 그 차이를 가르치지 않아도됩니다. ~로 나누다N − 1 N N n경우에 따라 또는 ).
수학에 들어가는 대신 평범한 단어로 표현하려고 노력할 것입니다. 전체 모집단을 처분 할 경우 분모 를 사용하여 분산 ( 집단 분산 )을 계산합니다 N
. 마찬가지로 표본 만 있고이 표본의 분산 을 계산 하려면 분모 N
(이 경우 표본 중 n)를 사용합니다. 두 경우 모두 아무것도 추정 하지 않습니다 . 측정 한 평균이 실제 평균이고 해당 평균에서 계산 한 분산이 실제 분산입니다.
이제 표본 만 남았으며 모집단의 미지의 평균과 분산에 대해 추론하려고합니다. 다시 말해, 견적 을 원합니다 . 모집단 평균의 추정치에 대해 표본 평균을 취합니다 (샘플이 대표적이므로). 모집단 분산의 추정치를 얻으려면 해당 평균이 실제로 모집단 평균 인 척해야하므로 계산할 때부터 더 이상 표본에 의존하지 않습니다 . 표본을 고정 된 상태로 "표시"하기 위해 표본에서 하나의 관측 값을 예약하여 평균값을 "지원"합니다. 표본이 발생 했더라도 예약 된 관측 값은 항상 평균값을 즉, 우발적 표본 추출에 둔감하다고 믿는다. 하나의 예약 된 관찰은 "-1"입니다.N-1
분산 계산에서.
어떻게 든 실제 모집단 평균을 알고 있지만 표본의 분산을 추정하려고한다고 상상해보십시오. 그런 다음 그 실제 평균을 분산 공식으로 대체하고 분모를 적용 N
합니다. 여기에서 "-1"은 필요 하지 않습니다. 실제 평균 을 알고 있으므로 동일한 표본에서 추정하지 않았습니다.
N
N과 n 모두에 사용 했습니다. N
모집단 또는 표본의 전체 크기입니다. 모집단 분산 을 계산하려면 처분에 모집단 이 있어야합니다 . 표본 만있는 경우이 표본의 분산을 계산하거나 모집단 추정 분산을 계산할 수 있습니다 . 다른 방법은 없습니다.
일반적으로 모집단의 일부, 즉 표본이있는 경우 n-1로 나누어야합니다. 그럴만한 이유가 있습니다. 표본 평균과의 평균 제곱 편차에 (n-1) / n을 곱하는 표본 분산이 모집단 분산의 편견 추정치라는 것을 알고 있습니다.
https://economictheoryblog.com/2012/06/28/latexlatexs2/ 에서 표본 분산 추정값이 편향되어 있지 않다는 증거를 찾을 수 있습니다.
또한 모집단 분산의 추정량, 즉 모집단 대신 표본에 대해 n으로 나눈 분산 추정기의 버전을 적용하면 얻은 추정값이 바이어스됩니다.
과거에는 비추 론적 분산에 N을 사용해야한다는 주장이 있었지만 더 이상 권장하지는 않습니다. 항상 N-1을 사용해야합니다. 표본 크기가 감소함에 따라 N-1은 표본 분산이 더 낮아진다는 사실에 대한 아주 좋은 보정입니다 (분포의 피크 근처에서 표본을 추출 할 가능성이 더 높습니다 (그림 참조)). 표본 크기가 실제로 크면 의미있는 양은 중요하지 않습니다.
대안적인 설명은 모집단이 달성하기 어려운 이론적 구조라는 것입니다. 그러므로, 당신이하고있는 모든 일이 기껏해야 모집단 분산을 추정하기 때문에 항상 N-1을 사용하십시오.
또한 여기에서 분산 추정치에 대해 N-1을 보게 될 것입니다. 교사가 추론과 비추 론적 분산 측정. 이 경우 whuber의 답변이나 광산을 사용하지 마십시오 .ttnphns의 답변을 참조하십시오.
이 그림에서 분산은 1에 가까워 야합니다. N을 사용하여 분산을 추정 할 때 표본 크기에 따라 변하는 정도를 확인하십시오. (이것은 다른 곳에서 언급 된 "바이어스"입니다)
모집단 분산은 모집단의 모든 값의 제곱 편차를 모집단의 값 수로 나눈 값의 합계입니다. 그러나 표본에서 모집단의 분산을 추정 할 때 표본 평균에서 표본 값의 편차가 평균에서 표본 값의 편차보다 약간 작은 문제가 발생합니다. 알 수 없음) 실제 인구 평균. 그 결과 표본에서 계산 된 분산이 실제 모집단 분산보다 약간 작습니다. n 대신 n-1 제수를 사용하면 해당 과소 평가가 수정됩니다.