모집단과 표본의 차이는 무엇입니까?


38

모집단과 표본의 차이는 무엇입니까? 각각에 공통 변수와 통계는 무엇이며 서로 어떻게 관련되어 있습니까?


답변:


36

인구는 연구중인 개체 집합입니다. 예를 들어 남성의 평균 신장입니다. 이것은 살았고 살아 있고 미래에 살 수있는 모든 남자를 포함하기 때문에 가상의 인구입니다. 분석가로서 우리가 연구하고자하는 인구를 선택한다는 점에서이 예를 좋아합니다. 일반적으로 모든 구성원을 관찰 할 수있는 것은 아니므로 전체 인구를 조사 / 측정하는 것은 불가능합니다 (예 : 미래에 존재할 남성). 전체 모집단을 열거 할 수있는 경우 종종 비용이 많이 들고 많은 시간이 걸립니다. 위의 예에서 우리는 인구 "남자"와 관심있는 매개 변수, 높이를 가지고 있습니다.

대신, 우리는 표본이라고하는이 모집단의 부분 집합을 취하여이 조건을 사용하여 연구중인 모집단에 대한 추론을 도출하는 데 사용할 수 있습니다. 따라서 우리는 통계량이라고 부르는 모집단 표본에서 남성의 평균 신장을 측정하고이를 사용하여 모집단의 관심 매개 변수에 대한 추론을 도출 할 수 있습니다. 표본을 기반으로 모집단에 대한 결론을 내리는 데 약간의 불확실성과 부정확성이 있기 때문에 이는 추론입니다. 이는 분명해야합니다. 표본보다 더 적은 수의 구성원이 있으므로 일부 정보가 손실되었습니다.

샘플을 선택하는 방법에는 여러 가지가 있으며이를 연구하는 것은 샘플링 이론입니다. 일반적으로 사용되는 방법을 SRS (Simple Random Sampling)라고합니다. SRS에서 모집단의 각 구성원은 표본에 포함될 확률이 동일하므로 용어 "무작위"입니다. 계층화 샘플링, 클러스터 샘플링 등 여러 가지 샘플링 방법이 있으며 모두 장점과 단점이 있습니다.

모집단에서 추출한 표본은 다수의 잠재적 표본 중 하나 일뿐임을 기억해야합니다. 10 명의 연구원이 모두 같은 모집단을 연구하고 자신의 표본을 추출하면 다른 답변을 얻을 수 있습니다. 앞의 예로 돌아가서, 열 명의 연구원 각각은 다른 평균 신장을 가지고 있습니다. 즉 문제의 통계량 (평균 신장)은 샘플마다 다릅니다. 샘플링 분포라는 분포가 있습니다. 이 분포를 사용하여 모집단 모수 추정치의 불확실성을 이해할 수 있습니다.

샘플 평균의 샘플링 분포는 샘플 표준 편차를 샘플 크기로 나눈 것과 동일한 표준 편차를 갖는 정규 분포로 알려져 있습니다. 이는 표본의 표준 편차와 쉽게 혼동 될 수 있기 때문에 샘플링 분포의 표준 편차를 표준 오차라고 부르는 것이 더 일반적 입니다.


7
"모든 남성"을 인구로 사용하는 것이 무의미하지 않습니까? 나는 합의가 몇 살에 관해서는 심지어이 아니라, 의미 호모 사피엔스 , 또는 여부 호모 네안데르탈 인은 별도의 종이었다 이용하여 돌 도구의 남성 여부를 홀로 호모 하빌리스는 "남자"로 계산합니다. 아마도 같은 문제가 미래에도 우리에게 직면 할 것입니다.
naught101

마지막 단락에서, 나는 약간의 손이 있다고 생각하며, 표준 오차와 관련하여 "샘플 표준 편차를 샘플 크기 의 [제곱근] 으로 나눈 것과 동일합니다"라고 읽어야 합니다 .
Antoni Parellada 2016 년

13

모집단은 관심있는 전체 값 세트 또는 개인입니다. 표본은 모집단의 서브 세트이며 실제로 추정에 사용하는 값 ​​세트입니다.

예를 들어, 중국 거주자의 평균 신장, 즉 인구, 즉 중국 인구를 알고 싶다면. 문제는이 숫자가 상당히 커서 모든 사람에 대한 데이터를 얻을 수 없다는 것입니다. 따라서 표본을 추출합니다. 즉, 일부 관측치 또는 중국에있는 일부 사람들의 신장 (인구의 일부, 표본)을 얻고이를 바탕으로 추론을 수행합니다.


좋은 대답입니다. 나는 "그것을 근거로 추론을하라"는 말의 의미로 더 나아가 야한다고 생각합니다. 그것은 제 질문의 두 번째 부분입니다.
Baltimark

음 ... 공통 변수와 통계의 의미를 이해하지 못했습니다 ... 모집단 분산이있는 경우 z 분포를 사용하고 표본 분산 만있는 경우 t- 분포를 사용하는 것을 의미합니까? 샘플 크기가 작습니까? 그 라인을 따라 뭔가?
Vivi

내가 얻은 것은 평균 및 표준 편차가 모집단과 관련된 매개 변수이지만 샘플 평균 ((1 / N) * \ sum (x_i)) 및 샘플 표준 편차 ((1 / ( N-1)) * \ sum (x_i-x ^ bar) ^ 2).
Baltimark

8

인구는 연구 그룹의 모든 것입니다. 예를 들어, Apple의 주가를 연구하는 경우 이는 과거, 현재 및 미래의 모든 주가입니다. 또는 계란 공장을 운영하는 경우 공장에서 만든 모든 계란입니다.

항상 표본을 추출 할 필요는 없으며 통계 테스트를 수행 할 수도 있습니다. 인구가 귀하의 직계 가족이라면 인구가 적기 때문에 표본 추출이 필요하지 않습니다.

샘플링은 여러 가지 이유로 인기가 있습니다.

  • 인구 조사보다 저렴합니다 (인구 전체를 샘플링)
  • 향후 데이터에 액세스 할 수 없으므로 과거를 샘플링해야합니다
  • 테스트하여 일부 아이템을 파괴해야하며 모든 아이템 (예 : 계란)을 파괴하고 싶지는 않습니다.

2

우리는“인구”라는 용어를 생각할 때 일반적으로 도시, 지역, 주 또는 국가의 사람들과 성별, 나이, 결혼 여부, 민족 구성원, 종교 등과 같은 각각의 특성을 생각합니다. 통계에서 "인구"라는 용어는 약간 다른 의미를 갖습니다. 통계의 "인구"에는 데이터 기반 의사 결정을 위해 정보를 연구하거나 수집하는 정의 된 그룹의 모든 구성원이 포함됩니다.

모집단의 일부를 샘플이라고합니다. 그것은 인구, 비율, 일부 및 모든 특성의 비율입니다. 표본은 무작위로 추출 된 경우 실제로 모집단과 동일한 특성을 갖는 과학적으로 그려진 그룹입니다 (이것은 믿기 어려울 수 있지만 사실입니다).

무작위로 추출한 샘플에는 두 가지 특성이 있어야합니다.

* 모든 사람은 귀하의 샘플에 대해 동등한 기회를 선택할 수 있습니다. 과,

* 한 사람의 선택은 다른 사람의 선택과 무관합니다.

무작위 표본의 장점은 관심있는 인구를 일반화 할 수 있다는 것입니다. 따라서 지역 사회에서 500 가구를 샘플링하면 그곳에 사는 5 만 가구를 일반화 할 수 있습니다. 500의 인구 통계 학적 특성 중 일부를 50,000과 일치 시키면 놀라 울 정도로 비슷하다는 것을 알 수 있습니다.


2
올바르게 해석하면 기본적으로 정확합니다. 나는 어떤 독자들이 대체를 가진 간단한 랜덤 샘플 (이것은 당신이 설명하는 랜덤 샘플의 종류입니다; 다른 종류가 있습니다) 이 모집단의 모든 특성을 정확하게 재생산한다고 생각하는 데 오해 될 수 있습니다 . 실제로 그들은 거의하지 않습니다. 무작위 표본 추출의 요점은 표본의 특성과 모집단의 특성 사이의 불가피한 차이가 무작위 선택 과정에 기인 할 수 있다는 것입니다.
whuber

0

모집단에는 데이터 집합의 모든 요소가 포함됩니다. 표본은 모집단의 하나 이상의 관측치로 구성됩니다. BOA, A. (2012, 17)


2
"데이터 세트"의 모든 요소가 모집단으로 간주 될 때 해당 데이터 세트를 인구 조사 라고합니다 . 센서스 인 데이터 세트는 거의 없습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.