답변:
인구는 연구중인 개체 집합입니다. 예를 들어 남성의 평균 신장입니다. 이것은 살았고 살아 있고 미래에 살 수있는 모든 남자를 포함하기 때문에 가상의 인구입니다. 분석가로서 우리가 연구하고자하는 인구를 선택한다는 점에서이 예를 좋아합니다. 일반적으로 모든 구성원을 관찰 할 수있는 것은 아니므로 전체 인구를 조사 / 측정하는 것은 불가능합니다 (예 : 미래에 존재할 남성). 전체 모집단을 열거 할 수있는 경우 종종 비용이 많이 들고 많은 시간이 걸립니다. 위의 예에서 우리는 인구 "남자"와 관심있는 매개 변수, 높이를 가지고 있습니다.
대신, 우리는 표본이라고하는이 모집단의 부분 집합을 취하여이 조건을 사용하여 연구중인 모집단에 대한 추론을 도출하는 데 사용할 수 있습니다. 따라서 우리는 통계량이라고 부르는 모집단 표본에서 남성의 평균 신장을 측정하고이를 사용하여 모집단의 관심 매개 변수에 대한 추론을 도출 할 수 있습니다. 표본을 기반으로 모집단에 대한 결론을 내리는 데 약간의 불확실성과 부정확성이 있기 때문에 이는 추론입니다. 이는 분명해야합니다. 표본보다 더 적은 수의 구성원이 있으므로 일부 정보가 손실되었습니다.
샘플을 선택하는 방법에는 여러 가지가 있으며이를 연구하는 것은 샘플링 이론입니다. 일반적으로 사용되는 방법을 SRS (Simple Random Sampling)라고합니다. SRS에서 모집단의 각 구성원은 표본에 포함될 확률이 동일하므로 용어 "무작위"입니다. 계층화 샘플링, 클러스터 샘플링 등 여러 가지 샘플링 방법이 있으며 모두 장점과 단점이 있습니다.
모집단에서 추출한 표본은 다수의 잠재적 표본 중 하나 일뿐임을 기억해야합니다. 10 명의 연구원이 모두 같은 모집단을 연구하고 자신의 표본을 추출하면 다른 답변을 얻을 수 있습니다. 앞의 예로 돌아가서, 열 명의 연구원 각각은 다른 평균 신장을 가지고 있습니다. 즉 문제의 통계량 (평균 신장)은 샘플마다 다릅니다. 샘플링 분포라는 분포가 있습니다. 이 분포를 사용하여 모집단 모수 추정치의 불확실성을 이해할 수 있습니다.
샘플 평균의 샘플링 분포는 샘플 표준 편차를 샘플 크기로 나눈 것과 동일한 표준 편차를 갖는 정규 분포로 알려져 있습니다. 이는 표본의 표준 편차와 쉽게 혼동 될 수 있기 때문에 샘플링 분포의 표준 편차를 표준 오차라고 부르는 것이 더 일반적 입니다.
모집단은 관심있는 전체 값 세트 또는 개인입니다. 표본은 모집단의 서브 세트이며 실제로 추정에 사용하는 값 세트입니다.
예를 들어, 중국 거주자의 평균 신장, 즉 인구, 즉 중국 인구를 알고 싶다면. 문제는이 숫자가 상당히 커서 모든 사람에 대한 데이터를 얻을 수 없다는 것입니다. 따라서 표본을 추출합니다. 즉, 일부 관측치 또는 중국에있는 일부 사람들의 신장 (인구의 일부, 표본)을 얻고이를 바탕으로 추론을 수행합니다.
인구는 연구 그룹의 모든 것입니다. 예를 들어, Apple의 주가를 연구하는 경우 이는 과거, 현재 및 미래의 모든 주가입니다. 또는 계란 공장을 운영하는 경우 공장에서 만든 모든 계란입니다.
항상 표본을 추출 할 필요는 없으며 통계 테스트를 수행 할 수도 있습니다. 인구가 귀하의 직계 가족이라면 인구가 적기 때문에 표본 추출이 필요하지 않습니다.
샘플링은 여러 가지 이유로 인기가 있습니다.
우리는“인구”라는 용어를 생각할 때 일반적으로 도시, 지역, 주 또는 국가의 사람들과 성별, 나이, 결혼 여부, 민족 구성원, 종교 등과 같은 각각의 특성을 생각합니다. 통계에서 "인구"라는 용어는 약간 다른 의미를 갖습니다. 통계의 "인구"에는 데이터 기반 의사 결정을 위해 정보를 연구하거나 수집하는 정의 된 그룹의 모든 구성원이 포함됩니다.
모집단의 일부를 샘플이라고합니다. 그것은 인구, 비율, 일부 및 모든 특성의 비율입니다. 표본은 무작위로 추출 된 경우 실제로 모집단과 동일한 특성을 갖는 과학적으로 그려진 그룹입니다 (이것은 믿기 어려울 수 있지만 사실입니다).
무작위로 추출한 샘플에는 두 가지 특성이 있어야합니다.
* 모든 사람은 귀하의 샘플에 대해 동등한 기회를 선택할 수 있습니다. 과,
* 한 사람의 선택은 다른 사람의 선택과 무관합니다.
무작위 표본의 장점은 관심있는 인구를 일반화 할 수 있다는 것입니다. 따라서 지역 사회에서 500 가구를 샘플링하면 그곳에 사는 5 만 가구를 일반화 할 수 있습니다. 500의 인구 통계 학적 특성 중 일부를 50,000과 일치 시키면 놀라 울 정도로 비슷하다는 것을 알 수 있습니다.