모집단 분산 계산에서 N과 N-1의 차이점은 무엇입니까?


50

나는 거기에 이유를하지 않았다 NN-1인구 분산을 계산하는 동안. 우리가 언제 사용할 NN-1?

여기에 이미지 설명을 입력하십시오
더 큰 버전을 보려면 여기를 클릭하십시오

인구가 매우 많을 때 N과 N-1 사이에는 차이가 없지만 처음에 N-1이 왜 있는지는 알 수 없습니다.

편집 : 견적 n과 혼동하지 마십시오 n-1.

Edit2 : 인구 추정에 대해서는 이야기하지 않습니다.


5
stats.stackexchange.com/questions/16008/…에 대한 답변을 찾을 수 있습니다 . 기본적으로 분산 을 추정 할 때는 N-1을 , 정확하게 계산할 때는 N을 사용해야 합니다.
ocram

@ocram, 분산을 추정 할 때 아는 한 n 또는 n-1을 사용합니다.
ilhan

추정기가 편향되지 않게하려면 n-1을 사용해야합니다. n이 크면 문제가되지 않습니다.
ocram

2
아래의 답변 중 어느 것도 유한 한 인구 추론으로 작성되지 않았습니다. 유한 이라는 단어 는 여기서 절대적으로 중요합니다. 그것이 Kish의 책에 관한 것입니다 (그리고 "책이 잘못되었다"고 말하는 사람은 유한 한 인구 조사와 샘플에 대해 충분히 알지 못합니다). 몫의 대신에 단지 계산이 친절하게하고 같은 요소 주위에 운반 할 필요가 미연에 방지 . 이 질문에 대한 완전한 대답은 샘플 지표 무작위 샘플링 추론과 관찰 된 특성의 값을 도입해야 할 것이다 고정됩니다. 무작위가 아닌. 돌로 설정합니다. N 1 - 1 / N YN1N11/Ny
StasK

2
이것은 실제로 다른 답변에 추가되지 않습니다. 다른 제수는 다른 해답을 주거나 심지어 N과의 차이가 줄어든다는 것은 문제가되지 않습니다. 문제는 언제 그리고 왜 제수를 사용해야하는지입니다.
Nick Cox

답변:


26

N ( N - 1 ) / N이 = 1 - ( 1 / N ) 1 - 2 / N (1) - 17 / N의 EXP ( - 1 / N )N 은 모집단 크기이고 은 표본 크기입니다. 이 질문은 모집단 분산이 평균보다 곱하기 보다는 평균에서 평균 제곱 편차 인 이유를 묻습니다 . 그 문제에 대해 왜 거기서 멈춰? 예를 들어 평균 제곱 편차에 또는 또는 곱하지 않는 이유는 무엇 입니까?n(N1)/N=1(1/N)12/N117/Nexp(1/N)

실제로하지 말아야 할 좋은 이유가 있습니다. 방금 언급 한 이러한 수치는 인구 내에서 "전형적인 스프레드"를 정량화하는 방법으로 사용됩니다. 그러나 모집단 규모에 대한 사전 지식이 없으면 무작위 표본을 사용하여 그러한 수치의 편견 추정기를 찾을 수 없습니다. 표본 평균의 평균 제곱 편차에 을 곱한 표본 분산 은 대체 표본 추출시 일반적인 모집단 분산의 편견 추정치 라는 것을 알고 있습니다. (우리는 을 알기 때문에이 수정에는 아무런 문제가 없습니다 !) 따라서 표본 분산은 과 같이 배수가 여러 개인 모집단 분산의 편향 추정값이됩니다.N 1 - 1 / N(n1)/nn11/N, 사전에 정확히 알려지지 않았습니다.

알 수없는 양의 바이어스에 대한이 문제는 t- 검정 및 F- 검정을 포함하여 표본 분산을 사용하는 모든 통계 검정에 전파됩니다. 실제로 모집단 분산 공식에서 이외의 값으로 나누 려면 t- 통계량 및 F- 통계량 (및 기타 여러 테이블)의 모든 통계 표를 변경해야 하지만 조정은 모집단 크기에 따라 다릅니다. 아무도 가능한 모든 에 대해 테이블을 만들고 싶어하지 않습니다 ! 특히 필요하지 않은 경우.NNN

실제적인 문제로서, 사용하는만큼 작은 대신에 공식의 차이를 만드는 것은, 당신은 일반적으로 않는 인구의 크기를 알고 (또는 정확하게 추측 할 수 있습니다) 당신은 가능성이 훨씬 더 실질적인에 의존 할 작은 인구 모집단에서 임의의 샘플 (교체없이)로 작업 할 때의 보정 . 다른 모든 경우 누가 신경 쓰나요? 차이는 중요하지 않습니다. 이러한 이유로 교육 학적 고려 사항 (즉, 중요하지 않은 세부 사항에 중점을두고 중요하지 않은 세부 사항에 중점을 두어야 함)에 따라 일부 우수한 입문 통계 텍스트 는 그 차이를 가르치지 않아도됩니다. ~로 나누다N 1 N N nNN1NN경우에 따라 또는 ).n


24

수학에 들어가는 대신 평범한 단어로 표현하려고 노력할 것입니다. 전체 모집단을 처분 할 경우 분모 를 사용하여 분산 ( 집단 분산 )을 계산합니다 N. 마찬가지로 표본 만 있고이 표본의 분산 을 계산 하려면 분모 N(이 경우 표본 중 n)를 사용합니다. 두 경우 모두 아무것도 추정 하지 않습니다 . 측정 한 평균이 실제 평균이고 해당 평균에서 계산 한 분산이 실제 분산입니다.

이제 표본 만 남았으며 모집단의 미지의 평균과 분산에 대해 추론하려고합니다. 다시 말해, 견적 을 원합니다 . 모집단 평균의 추정치에 대해 표본 평균을 취합니다 (샘플이 대표적이므로). 모집단 분산의 추정치를 얻으려면 해당 평균이 실제로 모집단 평균 인 척해야하므로 계산할 때부터 더 이상 표본에 의존하지 않습니다 . 표본을 고정 된 상태로 "표시"하기 위해 표본에서 하나의 관측 값을 예약하여 평균값을 "지원"합니다. 표본이 발생 했더라도 예약 된 관측 값은 항상 평균값을 즉, 우발적 표본 추출에 둔감하다고 믿는다. 하나의 예약 된 관찰은 "-1"입니다.N-1 분산 계산에서.

어떻게 든 실제 모집단 평균을 알고 있지만 표본의 분산을 추정하려고한다고 상상해보십시오. 그런 다음 그 실제 평균을 분산 공식으로 대체하고 분모를 적용 N합니다. 여기에서 "-1"은 필요 하지 않습니다. 실제 평균 을 알고 있으므로 동일한 표본에서 추정하지 않았습니다.


그러나 내 질문은 추정과 관련이 없습니다. 인구 분산 계산에 관한 것입니다. N과 N-1로. 나는 n과 n-1에 대해 이야기하고 있지 않습니다.
ilhan

1
@ilhan은 답장에서 NN과 n 모두에 사용 했습니다. N모집단 또는 표본의 전체 크기입니다. 모집단 분산 을 계산하려면 처분에 모집단 이 있어야합니다 . 표본 만있는 경우이 표본의 분산을 계산하거나 모집단 추정 분산을 계산할 수 있습니다 . 다른 방법은 없습니다.
ttnphns

내 인구에 대한 완전한 정보가 있습니다. 모든 값을 알고 있습니다. 나는 추정에 관심이 없다.
ilhan

1
인구가 있다면 N을 사용하십시오. N-1은 사용하기에 비논리적입니다.
ttnphns

1
@ilhan-ttnphns 게시물에 대한 귀하의 의견에 직접 댓글을 달 수는 없지만이 책에서 보는 내용과 그 내용을 어떻게 추론해야하는지에 대한 설명입니다. 분산을 암시하는 데 사용되는 기호 'S'는 항상 표본 분산을 나타냅니다. 그리스어 문자 시그마는 모집단 분산을 나타내는 데 사용됩니다. 그것이 당신이 책 S = N * sigma / (N-1)
Arvind

9

일반적으로 모집단의 일부, 즉 표본이있는 경우 n-1로 나누어야합니다. 그럴만한 이유가 있습니다. 표본 평균과의 평균 제곱 편차에 (n-1) / n을 곱하는 표본 분산이 모집단 분산의 편견 추정치라는 것을 알고 있습니다.

https://economictheoryblog.com/2012/06/28/latexlatexs2/ 에서 표본 분산 추정값이 편향되어 있지 않다는 증거를 찾을 수 있습니다.

또한 모집단 분산의 추정량, 즉 모집단 대신 표본에 대해 n으로 나눈 분산 추정기의 버전을 적용하면 얻은 추정값이 바이어스됩니다.


이것은 인구 분산 추정과 관련하여 다른 질문에 대답하는 것 같습니다. 순환 적으로 보입니다.이 답변은 처음에 모집단 분산을 정의하기위한 특정 규칙을 가정 한 것이 아닙니까?
whuber

7

과거에는 비추 론적 분산에 N을 사용해야한다는 주장이 있었지만 더 이상 권장하지는 않습니다. 항상 N-1을 사용해야합니다. 표본 크기가 감소함에 따라 N-1은 표본 분산이 더 낮아진다는 사실에 대한 아주 좋은 보정입니다 (분포의 피크 근처에서 표본을 추출 할 가능성이 더 높습니다 (그림 참조)). 표본 크기가 실제로 크면 의미있는 양은 중요하지 않습니다.

대안적인 설명은 모집단이 달성하기 어려운 이론적 구조라는 것입니다. 그러므로, 당신이하고있는 모든 일이 기껏해야 모집단 분산을 추정하기 때문에 항상 N-1을 사용하십시오.

또한 여기에서 분산 추정치에 대해 N-1을 보게 될 것입니다. 교사가 추론과 비추 론적 분산 측정. 이 경우 whuber의 답변이나 광산을 사용하지 마십시오 .ttnphns의 답변을 참조하십시오.

그림 1

이 그림에서 분산은 1에 가까워 야합니다. N을 사용하여 분산을 추정 할 때 표본 크기에 따라 변하는 정도를 확인하십시오. (이것은 다른 곳에서 언급 된 "바이어스"입니다)


1
왜 N이 더 이상 권장되지 않는지 알려주세요. 인구가 항상 이론적 인 구성은 아닙니다. 때때로 당신의 표본은 선의의 인구입니다.
ttnphns

1
ilhan, N은 표본에 사용되거나 모집단 크기 (있는 경우)에 사용될 수 있습니다. 대부분의 경우 큰 N과 작은 n의 구별은 주제에 따라 다릅니다. 예를 들어 n은 실험에서 각 조건의 사례 수이고 N은 실험의 수입니다. 둘 다 샘플입니다. 글로벌 규칙은 없습니다.
John

1
ttnphns는 인구의 의미에 따라 다릅니다. 전체 모집단이 너무 작아서 N-1이 중요하다면 평균 제곱 편차를 계산하는 것이 원격으로 유용한 지 여부는 의문의 여지가 있습니다. 모든 값, 모양 및 범위를 표시하십시오. 또한 추론을하지 않으면 실제로 N 자유도를 가진다는 오래된 주장은 의문의 여지가 있습니다. 평균을 계산할 때 하나를 잃어 분산을 계산해야했습니다.
John

1
당신은 인구 내에서 의미 계산해 경우 @ 존, 당신은 단지 상태 매개 변수에 대한 사실을, 그래서 당신은 자유의 더도 지출하지 않습니다. 샘플로 계산 하여 모집단에 대해 추론 하려면 지출하십시오. 또한 N = 1 인 인구를 가질 수 있습니다. 분모 N-1을 사용하면 분산과 같은 매개 변수가 존재 하지 않는 것으로 보입니다 . 말도 안됩니다.
ttnphns

3
@ilhan 제발, 당신이 한 것처럼 질문을 업데이트하고 비 구현적인 의견을 남기지 말고 업데이트 된 버전을 가리 키십시오. 특히 질문 자체에 컨텍스트가없는 경우 모든 것이 논쟁의 여지가 있습니다. 여기서 문제는 인구가 실제로 무엇인지 정의하는 것에서 비롯된 것 같습니다.
chl

4

모집단 분산은 모집단의 모든 값의 제곱 편차를 모집단의 값 수로 나눈 값의 합계입니다. 그러나 표본에서 모집단의 분산을 추정 할 때 표본 평균에서 표본 값의 편차가 평균에서 표본 값의 편차보다 약간 작은 문제가 발생합니다. 알 수 없음) 실제 인구 평균. 그 결과 표본에서 계산 된 분산이 실제 모집단 분산보다 약간 작습니다. n 대신 n-1 제수를 사용하면 해당 과소 평가가 수정됩니다.


@ Bunnenburg, 질문에 대한 답변이 있다면. 당신은 무엇을 지금 내게 알려주세요? 나에게도 큰 혼란이다.
Bilal Para

우리가 얻는 약간의 분산 을 보상하기 위해 왜 n-2, n-3 등을 사용할 수 없습니까? 왜 n-1입니까? 왜 상수가 아닌가?
Saravanabalagi Ramachandran

@SaravanabalagiRamachandran 차이는 샘플 크기에 따라 다르므로 상수가 제공되지 않습니다. n-1을 사용한 보정은 다른 언급보다 더 효과적입니다.
Michael Lew
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.