가설 검정에서 일반적인 질문은 모집단 분산 이 무엇입니까? 제 질문은 인구 분산을 어떻게 알 수 있습니까? 전체 분포를 알면 전체 모집단 의 평균 도 알 수 있습니다 . 그렇다면 가설 검정의 요점은 무엇입니까?
가설 검정에서 일반적인 질문은 모집단 분산 이 무엇입니까? 제 질문은 인구 분산을 어떻게 알 수 있습니까? 전체 분포를 알면 전체 모집단 의 평균 도 알 수 있습니다 . 그렇다면 가설 검정의 요점은 무엇입니까?
답변:
이 문제가 Stats 101 (통계 소개) 외부에서 "흔히"나오는지 확실하지 않습니다. 나는 그것을 본 적이 확실하지 않습니다. 다른 한편으로, 우리는 논리적 인 진보를 제공하기 때문에 입문 과정을 가르 칠 때 그러한 방식으로 자료를 제시합니다. 당신은 하나의 그룹 만 있고 분산을 알고있는 간단한 상황에서 시작한 다음 그렇지 않은 곳으로 진행합니다. 분산을 알고, 두 그룹이있는 곳으로 진행합니다 (그러나 동일한 분산을 갖는 등).
약간 다른 점을 다루기 위해 분산을 알면 가설 검정을 왜 귀찮게 할 것인지 묻습니다. 왜냐하면 우리도 평균을 알아야하기 때문입니다. 후자는 합리적이지만 첫 번째 부분은 오해입니다. 우리가 알고있는 평균은 귀무 가설 하의 평균이됩니다. 그것이 우리가 테스트하는 것입니다. @StephanKolassa의 IQ 점수 예를 고려하십시오. 평균은 100이고 표준 편차는 15입니다. 우리가 테스트하는 것은 우리 그룹 (왼손잡이 빨간 머리 또는 입문 통계 학생)이 그것과 다른 경우입니다.
우리는 종종 모집단 분산을 알지 못하지만 다른 표본에서 매우 신뢰할만한 추정치를 얻습니다. 예를 들어, 다음은 펭귄의 평균 무게가 줄 었는지 여부를 평가 하는 예 입니다. 여기서 작은 샘플의 평균을 사용하지만 더 큰 독립적 인 샘플의 분산을 사용합니다. 물론, 이것은 두 모집단에서 분산이 동일하다는 것을 전제로합니다.
다른 예는 클래식 IQ 스케일 일 수 있습니다. 이것들은 실제로 큰 표본을 사용하여 평균 100과 표준 편차 15로 정규화됩니다 . 그런 다음 특정 표본 (예 : 50 개의 왼손잡이 빨간 머리)을 가져 와서 15 ^ 2를 "알려진"분산으로 사용하여 평균 IQ가 100보다 훨씬 큰지 묻습니다. 물론 다시 한번, 이것은 두 표본 사이에 분산이 실제로 같은지 여부에 대한 의문을 제기합니다. 결국 우리는 이미 평균이 다른지 여부를 테스트하고 있습니다. 왜 분산이 같은지?
결론 : 귀하의 우려는 유효하며 일반적으로 알려진 순간을 가진 테스트 는 교훈적인 목적으로 만 사용됩니다. 통계 과정에서는 일반적으로 예상 모멘트를 사용한 테스트가 즉시 이어집니다 .
모집단 분산 을 아는 유일한 방법 은 전체 모집단을 측정하는 것입니다.
그러나 전체 모집단을 측정하는 것은 종종 불가능합니다. 돈, 도구, 인력 및 액세스를 포함한 자원이 필요합니다. 이러한 이유로 우리는 모집단을 샘플링합니다. 그것은 인구의 부분 집합을 측정하는 것입니다. 표본 추출 과정은 모집단을 대표하는 표본 모집단을 작성하기 위해 신중하게 설계해야합니다. 두 가지 주요 고려 사항-샘플 크기 및 샘플링 기술.
장난감 예 : 스웨덴의 성인 인구에 대한 체중의 분산을 추정하려고합니다. 약 950 만 스웨덴어가 있으므로 나가서 모두 측정 할 수는 없습니다. 따라서 실제 모집단 내 분산을 추정 할 수있는 표본 모집단을 측정해야합니다.
당신은 스웨덴 인구를 샘플링하기 위해 밖으로 향합니다. 이를 위해 스톡홀름 시내 중심가에 서서 인기있는 가상의 스웨덴 버거 체인 버거 쿤겐 (Burger Kungen) 바로 밖에 서 있습니다. 실제로 비가 내리고 춥습니다 (여름이어야 함). 그래서 당신은 식당 안에 서 있습니다. 여기서 네 사람의 무게입니다.
기회는 샘플이 스웨덴의 인구를 잘 반영하지 않을 것입니다. 당신이 가진 것은 스톡홀름에서 햄버거 식당에있는 사람들의 샘플입니다. 이는 추정하려는 모집단을 공정하게 표현하지 않아 결과를 편향시킬 가능성이 높기 때문에 잘못된 샘플링 기술 입니다. 또한 샘플 크기 가 작습니다.따라서 극한의 인구에있는 4 명을 선택할 위험이 높습니다. 매우 가볍거나 무겁습니다. 1000 명을 샘플링하면 샘플링 바이어스가 발생할 가능성이 줄어 듭니다. 이례적인 사람을 선택하는 것보다 이례적인 사람을 선택하는 것보다 훨씬 적습니다. 더 큰 표본 크기는 최소한 Burger Kungen 고객들 사이의 평균 및 무게의 분산에 대한 더 정확한 추정치를 제공합니다.
히스토그램은 샘플링 기술의 효과를 보여줍니다. 회색 분포는 Burger Kungen (평균 85kg)에서 먹지 않는 스웨덴 인구를 나타내고 빨간색은 Burger Kungen 고객 (평균 100kg)을 나타냅니다. 파란색 대시는 네 사람이 샘플링 할 수 있습니다. 올바른 샘플링 기술은 모집단을 공정하게 평가해야하며,이 경우 모집단의 ~ 75 %, 즉 측정되는 표본의 75 %가 Burger Kungen의 고객이 아니어야합니다.
이것은 많은 설문 조사에서 중요한 문제입니다. 예를 들어, 고객 만족도 조사 또는 선거 여론 조사에 응답 할 가능성이 높은 사람들은 극단적 인 견해를 가진 사람들에 의해 불균형 적으로 대표되는 경향이 있습니다. 의견이 덜 강한 사람들은 자신의 의견을 더 잘 표현하는 경향이 있습니다.
가설 테스트 포인트 (인 항상 두 집단이 서로 다른지를 예를 들면, 시험). 예를 들어 Burger Kungen의 고객은 Burger Kungen에서 먹지 않는 스웨덴보다 무게가 더 큽니까? 이를 정확하게 테스트하는 능력은 적절한 샘플링 기술과 충분한 샘플 크기에 의존합니다.
테스트 할 R 코드는이 모든 것을 가능하게합니다.
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
결과 :
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024
때로는 모집단 분산이 설정되어 선험적 . 예를 들어 SAT 점수는 표준 편차가 110 이고 IQ 테스트는 표준 편차가 15가되도록 조정됩니다 .
평균을 알 수 없지만 분산이 알려져있을 때 생각할 수있는 유일한 현실적인 예 는 고정 반경과 알 수없는 중심 을 가진 초구 (차원에 상관없이) 에 임의의 점이 샘플링 된 경우입니다 . 이 문제는 알 수없는 평균 (구의 중심)이 있지만 고정 분산 (구의 제곱 반경)이 있습니다. 나는 알 수없는 평균이지만 알려진 분산이있는 다른 현실적인 예를 알지 못합니다. (그리고 분명히 : 다른 데이터에서 외부 분산 추정값을 갖는 것은 알려진 분산의 예가 아닙니다. 또한 다른 데이터에서이 분산 추정치를 갖는 경우 동일한 데이터의 해당 평균 추정치가없는 이유는 무엇입니까? 데이터?)
내 견해로는, 미지의 평균과 알려진 분산으로 시험을 가르치는 입문 통계 과정은 시대에 뒤떨어져 있으며 현대적인 교육 도구로 잘못 안내됩니다. 교육 학적으로, 평균과 분산을 알 수없는 경우 T- 검정으로 직접 시작하고 z- 검정을 자유도가 클 때 유지되는 점근 적 근사로 취급하는 것이 훨씬 좋습니다. z 테스트를 전혀 가르치지 않아도됩니다). 알려진 차이가 있지만 알 수없는 평균이있는 상황의 수는 거의 작지 않으며 일반적으로 학생들에게이 (가끔은 드문) 사례를 소개하는 것은 잘못된 것입니다.
때때로 응용 문제에서, 물리학, 경제학 등이 제시하는 이유는 분산에 대해 알려주고 불확실성이 없습니다. 다른 경우에는 모집단이 한정되어있을 수 있으며 모든 사람에 대해 알아야 할 사항이 있지만 나머지를 배우려면 통계를 샘플링하고 수행해야합니다.
일반적으로 귀하의 우려는 상당히 유효합니다.