모집단 분산을 어떻게 알 수 있습니까?


10

가설 검정에서 일반적인 질문은 모집단 분산무엇입니까? 제 질문은 인구 분산을 어떻게 알 수 있습니까? 전체 분포를 알면 전체 모집단 의 평균 도 알 수 있습니다 . 그렇다면 가설 검정의 요점은 무엇입니까?


일부 관련 문헌 : nber.org/papers/w20325
dv_bn

평균에 대해 아무것도 모른 채 차이를 알 수 있습니다. 예를 들어 모집단의 모든 값 차이의 제곱에서 분산을 복구 할 수 있지만 이러한 차이는 평균에 대한 정보를 제공하지 않습니다. 어쨌든, 나는이 게시물의 진술과 질문이 어떻게 가설 검정의 요점에 관한 질문 자체로 이어지는 지 알 수 없습니다.
whuber

답변:


10

이 문제가 Stats 101 (통계 소개) 외부에서 "흔히"나오는지 확실하지 않습니다. 나는 그것을 본 적이 확실하지 않습니다. 다른 한편으로, 우리는 논리적 인 진보를 제공하기 때문에 입문 과정을 가르 칠 때 그러한 방식으로 자료를 제시합니다. 당신은 하나의 그룹 만 있고 분산을 알고있는 간단한 상황에서 시작한 다음 그렇지 않은 곳으로 진행합니다. 분산을 알고, 두 그룹이있는 곳으로 진행합니다 (그러나 동일한 분산을 갖는 등).

약간 다른 점을 다루기 위해 분산을 알면 가설 검정을 왜 귀찮게 할 것인지 묻습니다. 왜냐하면 우리도 평균을 알아야하기 때문입니다. 후자는 합리적이지만 첫 번째 부분은 오해입니다. 우리가 알고있는 평균은 귀무 가설 하의 평균이됩니다. 그것이 우리가 테스트하는 것입니다. @StephanKolassa의 IQ 점수 예를 고려하십시오. 평균은 100이고 표준 편차는 15입니다. 우리가 테스트하는 것은 우리 그룹 (왼손잡이 빨간 머리 또는 입문 통계 학생)이 그것과 다른 경우입니다.


2
(+1) 아마도 "모집단으로부터 샘플링"이 문자 그대로 취해지는 것이 아니라 데이터 생성 프로세스에 대해 생각하는 방법 일 때 더 많이 나타날 것입니다. 예를 들어 측정 기기의 정밀도를 아는 것.
Scortchi-Monica Monica 복원

20 년 이상의 경력을 가진 실무자 인 궁 (Gung)은이 문제가 당신이 암시하는 것보다 더 자주 내 경험에서 나왔습니다. 나는 논쟁이 일어났다는 것을 "자주"제기했다고 제안하지는 않는다. 그러나 Stats 101에 대한 당신의 요점에 따르면, 토론은 연구 또는 프로젝트의 특정 사항에 대해 거의 또는 전혀 해결하지 못한 붉은 청어였습니다.
Mike Hunter

1
@DJohnson, 나는 그것이 당신이 작업하는 주제에 달려 있다고 생각합니다.
gung-Monica Monica 복원

4

우리는 종종 모집단 분산을 알지 못하지만 다른 표본에서 매우 신뢰할만한 추정치를 얻습니다. 예를 들어, 다음은 펭귄의 평균 무게가 줄 었는지 여부를 평가 하는 예 입니다. 여기서 작은 샘플의 평균을 사용하지만 더 큰 독립적 인 샘플의 분산을 사용합니다. 물론, 이것은 두 모집단에서 분산이 동일하다는 것을 전제로합니다.

다른 예는 클래식 IQ 스케일 일 수 있습니다. 이것들은 실제로 큰 표본을 사용하여 평균 100과 표준 편차 15로 정규화됩니다 . 그런 다음 특정 표본 (예 : 50 개의 왼손잡이 빨간 머리)을 가져 와서 15 ^ 2를 "알려진"분산으로 사용하여 평균 IQ가 100보다 훨씬 큰지 묻습니다. 물론 다시 한번, 이것은 두 표본 사이에 분산이 실제로 같은지 여부에 대한 의문을 제기합니다. 결국 우리는 이미 평균이 다른지 여부를 테스트하고 있습니다. 왜 분산이 같은지?

결론 : 귀하의 우려는 유효하며 일반적으로 알려진 순간을 가진 테스트 는 교훈적인 목적으로 만 사용됩니다. 통계 과정에서는 일반적으로 예상 모멘트를 사용한 테스트가 즉시 이어집니다 .


2

모집단 분산 을 아는 유일한 방법 은 전체 모집단을 측정하는 것입니다.

그러나 전체 모집단을 측정하는 것은 종종 불가능합니다. 돈, 도구, 인력 및 액세스를 포함한 자원이 필요합니다. 이러한 이유로 우리는 모집단을 샘플링합니다. 그것은 인구의 부분 집합을 측정하는 것입니다. 표본 추출 과정은 모집단을 대표하는 표본 모집단을 작성하기 위해 신중하게 설계해야합니다. 두 가지 주요 고려 사항-샘플 크기 및 샘플링 기술.

장난감 예 : 스웨덴의 성인 인구에 대한 체중의 분산을 추정하려고합니다. 약 950 만 스웨덴어가 있으므로 나가서 모두 측정 할 수는 없습니다. 따라서 실제 모집단 내 분산을 추정 할 수있는 표본 모집단을 측정해야합니다.

당신은 스웨덴 인구를 샘플링하기 위해 밖으로 향합니다. 이를 위해 스톡홀름 시내 중심가에 서서 인기있는 가상의 스웨덴 버거 체인 버거 쿤겐 (Burger Kungen) 바로 밖에 서 있습니다. 실제로 비가 내리고 춥습니다 (여름이어야 함). 그래서 당신은 식당 안에 서 있습니다. 여기서 네 사람의 무게입니다.

기회는 샘플이 스웨덴의 인구를 잘 반영하지 않을 것입니다. 당신이 가진 것은 스톡홀름에서 햄버거 식당에있는 사람들의 샘플입니다. 이는 추정하려는 모집단을 공정하게 표현하지 않아 결과를 편향시킬 가능성이 높기 때문에 잘못된 샘플링 기술 입니다. 또한 샘플 크기 가 작습니다.따라서 극한의 인구에있는 4 명을 선택할 위험이 높습니다. 매우 가볍거나 무겁습니다. 1000 명을 샘플링하면 샘플링 바이어스가 발생할 가능성이 줄어 듭니다. 이례적인 사람을 선택하는 것보다 이례적인 사람을 선택하는 것보다 훨씬 적습니다. 더 큰 표본 크기는 최소한 Burger Kungen 고객들 사이의 평균 및 무게의 분산에 대한 더 정확한 추정치를 제공합니다.

여기에 이미지 설명을 입력하십시오

히스토그램은 샘플링 기술의 효과를 보여줍니다. 회색 분포는 Burger Kungen (평균 85kg)에서 먹지 않는 스웨덴 인구를 나타내고 빨간색은 Burger Kungen 고객 (평균 100kg)을 나타냅니다. 파란색 대시는 네 사람이 샘플링 할 수 있습니다. 올바른 샘플링 기술은 모집단을 공정하게 평가해야하며,이 경우 모집단의 ~ 75 %, 즉 측정되는 표본의 75 %가 Burger Kungen의 고객이 아니어야합니다.

이것은 많은 설문 조사에서 중요한 문제입니다. 예를 들어, 고객 만족도 조사 또는 선거 여론 조사에 응답 할 가능성이 높은 사람들은 극단적 인 견해를 가진 사람들에 의해 불균형 적으로 대표되는 경향이 있습니다. 의견이 덜 강한 사람들은 자신의 의견을 더 잘 표현하는 경향이 있습니다.

가설 테스트 포인트 (인 항상 두 집단이 서로 다른지를 예를 들면, 시험). 예를 들어 Burger Kungen의 고객은 Burger Kungen에서 먹지 않는 스웨덴보다 무게가 더 큽니까? 이를 정확하게 테스트하는 능력은 적절한 샘플링 기술과 충분한 샘플 크기에 의존합니다.


테스트 할 R 코드는이 모든 것을 가능하게합니다.

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

결과 :

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 


1

평균을 알 수 없지만 분산이 알려져있을 때 생각할 수있는 유일한 현실적인 예 는 고정 반경과 알 수없는 중심 을 가진 초구 (차원에 상관없이) 에 임의의 점이 샘플링 된 경우입니다 . 이 문제는 알 수없는 평균 (구의 중심)이 있지만 고정 분산 (구의 제곱 반경)이 있습니다. 나는 알 수없는 평균이지만 알려진 분산이있는 다른 현실적인 예를 알지 못합니다. (그리고 분명히 : 다른 데이터에서 외부 분산 추정값을 갖는 것은 알려진 분산의 예가 아닙니다. 또한 다른 데이터에서이 분산 추정치를 갖는 경우 동일한 데이터의 해당 평균 추정치가없는 이유는 무엇입니까? 데이터?)

내 견해로는, 미지의 평균과 알려진 분산으로 시험을 가르치는 입문 통계 과정은 시대에 뒤떨어져 있으며 현대적인 교육 도구로 잘못 안내됩니다. 교육 학적으로, 평균과 분산을 알 수없는 경우 T- 검정으로 직접 시작하고 z- 검정을 자유도가 클 때 유지되는 점근 적 근사로 취급하는 것이 훨씬 좋습니다. z 테스트를 전혀 가르치지 않아도됩니다). 알려진 차이가 있지만 알 수없는 평균이있는 상황의 수는 거의 작지 않으며 일반적으로 학생들에게이 (가끔은 드문) 사례를 소개하는 것은 잘못된 것입니다.


0

때때로 응용 문제에서, 물리학, 경제학 등이 제시하는 이유는 분산에 대해 알려주고 불확실성이 없습니다. 다른 경우에는 모집단이 한정되어있을 수 있으며 모든 사람에 대해 알아야 할 사항이 있지만 나머지를 배우려면 통계를 샘플링하고 수행해야합니다.

일반적으로 귀하의 우려는 상당히 유효합니다.


5
나는 우리가 분산을 알 수 있지만 물리학이나 경제학에서 예를 그리는 데 어려움을 겪고 있습니다. 이산 분포와 유사합니다. 구체적인 예를 들어 주시겠습니까?
Stephan Kolassa

@StephanKolassa 물리학 실험 측정은 하나의 예라고 생각합니다. 우리는 잘 알려진 분산 (측정 오차)을 갖는 측정 프로세스 또는 측정 장치를 가질 수 있으므로 특정 이벤트를 측정 할 때 분산은 동일하지만 실제 평균 만 추정 할 수 있습니다.
Peteris

2
@Peteris : 의미가 있습니다 -하지만 더 케이스 같은 소리 I 노트 (악기의) 분산의는, 이전의 "교정 샘플"추정 된. 불확실성 (!)이없는 이론적으로 파생 된 분산이 다른 것으로 기대합니다.
Stephan Kolassa
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.