표본의 표본 추출 분포는 모집단 평균과 어떻게 비슷합니까?


16

통계를 배우려고 노력하고 있는데, 그것이 제대로 이해되지 않으면 어떤 것들을 배우지 못하게 막는 것이 널리 퍼져 있기 때문입니다. 샘플 수단의 샘플링 분포에 대한이 개념을 이해하는 데 어려움이 있습니다. 일부 책과 사이트에서 설명하는 방식을 이해할 수 없습니다. 나는 이해가 있다고 생각하지만 그것이 정확한지 확실하지 않습니다. 아래는 그것을 이해하려는 시도입니다.

정규 분포를 취하는 현상에 대해 이야기 할 때, 일반적으로 인구에 관한 것은 아닙니다.

추론 통계를 사용하여 일부 인구에 대한 정보를 예측하려고하지만 모든 데이터가있는 것은 아닙니다. 우리는 랜덤 샘플링을 사용하고 크기 n의 각 샘플은 선택 될 가능성이 동일합니다.

그래서 우리는 많은 샘플을 취하고 100이라고 말하면 그 샘플의 평균 분포는 중앙 한계 정리에 따라 거의 정상입니다. 표본 평균의 평균은 모집단 평균과 비슷합니다.

이제 내가 이해하지 못하는 것은 "100 명의 표본"… 아니면 충분히 큰 단일 표본을 채집하여 1000이라고 말한 다음 그 평균이 모집단 평균에 근접한다고 말할 수 있습니까? 또는 우리는 1000 명의 표본을 취한 다음 원래의 1000 명을 대상으로 한 표본에서 100 명의 무작위 표본 100 개를 취하여 근사치로 사용합니까?

평균 (거의)을 근사 할 수있을 정도로 큰 표본을 채취하면 항상 효과가 있습니까? 이것이 작동하려면 인구가 정상이어야합니까?

답변:


9

동일한 모집단에서 여러 번 반복하여 표본 추출했을 때 발생할 수있는 일을 시뮬레이션하는 (보통 가정적) 프로세스의 평균 (단일 표본을 기준으로 계산할 것)의 예상 표본 추출 분포를 혼동 할 수 있다고 생각합니다.

주어진 표본 크기 (심지어 n = 2)에 대해 (두 사람의) 표본 평균이 모집단 평균을 추정한다고 말할 수 있습니다. 그러나 추정 정확도, 즉 평균의 표준 오차에 반영된 바와 같이 표본 데이터를 기반으로 모집단 평균을 계산하는 작업의 수준이 20 또는 200 인 경우보다 열악합니다. 우리 샘플의 사람들. 이것은 비교적 직관적입니다 (큰 샘플은 더 정확한 추정 정확도를 제공합니다).

그런 다음 표준 오차를 사용하여 (이 경우) 정규 분포를 기반으로하는 신뢰 구간을 계산합니다 (집단의 표준 편차가 종종 과소 평가되기 때문에 작은 표본에서 t- 분포를 사용합니다) 작은 표본으로 인해 지나치게 낙관적 인 표준 오류가 발생합니다.)

마지막 질문에 대한 답으로, 우리는 이러한 추정 방법을 적용하기 위해 항상 정규 분포 모집단이 필요하지는 않습니다. 중앙 한계 정리는 평균 (단일 샘플에서 다시 추정)의 샘플링 분포가 경향이 있음을 나타냅니다 기본 모집단에 비정규 분포가있는 경우에도 정규 분포를 따릅니다. 일반적으로 "더 큰"샘플 크기에 적합합니다.

샘플링 한 비정규 모집단이있는 경우 해당 평균에 대한 샘플링 분포가 신뢰할 수있는 것으로 간주 되더라도 평균이 적절한 요약 통계가 아닐 수 있습니다.


그래서 나는 본질적 으로이 물건 중 일부가 어떻게 작동하는지에 대한 이론적 토대를 이해하는 데 너무 매달리지 않습니까? 여기서 흥미로운 것은 신뢰 구간입니까? 다시 말해, 미국의 평균 성인이 잠을 자고있는 시간의 양을 말하고 5,000 샘플을 받고 자신감 구간이 99.9 %이고 평균이 6.46에서 6.54 사이 인 경우 앞서 미국에서 평균 성인 6.5 시간을 자고 있다고 "자신감있게"내 연구를 발표합니까?
mergesort

2
당신이 말한 곳 : " 미국에서 평균 성인 수면 시간은 6.5 시간이다 " 글쎄요, 실제로 평균 6.5 시간 이 아니라고 확신 할 수 있습니다 . 당신은 그것의 확신 할 수 있습니다 매우 가까운 6.5 시간, 또는 당신은, 또는 그러한 '가장 가까운 5 분 6.5 시간'의 것을 확신 할 수있다. 범위 만 관련 수준이 있습니다.
Glen_b-복지 주 모니카

1
@Glen_b는 문제의 중심에 도달합니다. 우리는 정확하게 모집단 값을 추정했다고 확신 할 수는 없지만 추정 과정의 정확성에 대해 약간의 아이디어를 가지고 있다고 말할 수는 없습니다.
James Stanley

@angrymonkey 나는 (시뮬레이트 된) 반복 샘플링 방식의 기본 개념을 얻는 것이 여전히 유용하다고 생각합니다. 또한 추정을 위해서는 "거대한"표본 크기가 필요하지 않음을 의미합니다. 평균의 표준 오차에 대한 공식 sample std deviation / square root(n)은-n 부분의 제곱근은 표본 크기로 고정 증분에 대한 추정 정확도에 대한 수익이 감소 함을 나타냅니다. 더 커짐 (예 : 표본에서 10 명에서 20 명으로 이동하면 210 명에서 220 명으로 이동하는 것보다 추정 정확도가 향상됩니다.)
James Stanley

큰 ... 도와 주셔서 감사합니다. 그래서 CI는 우리가 평균적인 사람이 밤 6.45에서 6.56 시간 사이에 자고 있다고 95 % 확신한다고 말할 수 있습니까? 그렇다면 왜 일부 기사에서는 보통 사람이 하루에 4.5 시간 TV를 시청하는 것과 같은 결정적인 주장을합니까? 확실히 신뢰 구간은 95 % 4.43, 4.56과 같습니다
mergesort

10
  • σ2/
  • 여러 개의 독립적 인 표본을 취하면 각 표본 평균이 정상이되고 평균의 평균이 정상이되고 실제 평균이되는 경향이 있습니다.
  • 표본이 실제로 동일한 분포 (예 : 10 개씩 100 개의 표본)에서 나온 경우 1000의 큰 표본 하나를 취하는 것과 동일한 추론을 할 것입니다. (실제에서는 고유 한 표본이 다른 방식으로 무시할 수 없습니다 ( "랜덤 화 된 블록 디자인"참조).
  • 각각 10 개씩 100 개의 표본을 취하면 표본 평균은 원래 데이터보다 더 정규적으로 보이는 분포를 가지지 만 전체 평균의 분포보다 덜 정규적인 분포를 갖게됩니다.
  • 큰 표본을 채취하면 정규성에 가까워집니다.
  • 모집단 평균을 추정하려는 경우 1000의 큰 표본 또는 10의 100 표본을 취해도 이론적으로 차이가 없습니다.
  • 그러나 실제로 샘플링 이론을 사용하는 사람들은 군집화, 계층화 및 기타 문제로 인해 샘플을 분할 할 수 있습니다. 그런 다음 추정을 수행 할 때 샘플링 체계를 고려합니다. 그러나 그것은 또 다른 질문에 중요합니다.

대부분의 교과서에서는 표본 평균의 표본 분포에 대한 개념을 설명합니다. 이것은 본질적으로 "이봐, 만약 당신이 많은 샘플을 취한다면, 그것은 정상적인 경향이 있고, 인구 평균에 근접 할 것입니다." 그런 다음 충분한 양의 샘플을 채취하면 하나만 채취 할 수 있다고합니다. 표본의 표본 추출 분포는 하나의 큰 표본을 채취 할 수 있다고 생각합니까? 다시 말해, 그것을 이해하는 목적은 무엇입니까? 큰 표본을 채취 한 뒤에 직관을 파악하는 데 도움이됩니까? theo 샘플링의 아이디어를 무시
mergesort

@ "James Stanley"가 그 답을 잘 알고 있다고 생각합니다. 실제 상황에서 표본을 채집하고 표본 평균을 계산하면 추정치입니다.
Placidia

1

평균의 샘플링 분포는 주어진 크기의 모든 샘플의 분포입니다. 표본 추출 거리의 평균은 모집단의 평균과 같습니다. 주어진 크기의 샘플에 대해 평균의 거리를 샘플링하는 것에 대해 이야기 할 때 우리는 하나의 샘플 또는 수천 개의 샘플이 아니라 모든 샘플에 대해 이야기합니다.


0

평균의 샘플링 거리는 신뢰 구간과 관련이 없습니다. 그것은 또 다른 개념입니다. dist 샘플링의 경우 모집단이 정상이거나 정상이 아닐 수 있습니다. a) pop이 정상이면 모든 표본 크기에 대해 평균의 samp dist가 정상입니다. b) 팝이 정상이 아닌 경우 1) 평균의 샘플링 거리는 샘플 크기가 30 이상이 아닌 한 정상으로 간주 될 수 없습니다. 그런 다음 중앙 한계 정리 (Central Limit Theorem)는 샘플링 거리가 정상으로 간주 될 수 있음을 알려줍니다.

당신은 예측에 대해 이야기합니다. 예측은 이것과 아무 관련이 없습니다. samp dist에 너무 많이 삽입했습니다. samp dist는 단순히 모든 표본이며 평균이 취해집니다. 그리고이 모든 표본의 평균, mu sub x bar는 모집단의 평균, mu 및 표준 개발 샘플링 dist, 시그마 sub x bar = 시그마를 n의 제곱근으로 나눈 값과 같습니다. (우리는 유한 팝 보정 계수에 대해 이야기하지 않을 것입니다. 액면가에 대한 통계를 취하십시오. 개념을 너무 많이 읽지 마십시오. 주먹은 기본 개념을 이해합니다.

추신 : 평균의 samp dist에는 아무 것도하지 않는다


이 답변이 다른 답변으로 입력되지 않고 첫 번째 답변과 결합 될 수 있는지 궁금합니다. 일반적으로 스레드 당 1 개의 답변을 선호합니다. (예외가 있습니다.) 왼쪽 하단의 회색 "수정"을 클릭하여 기존 답변에 자료를 추가하거나 변경할 수 있습니다.
gung-복원 Monica Monica

0

빅 데이터 문제에 대해 생각하고 오늘 아침에 이러한 게시물 중 일부를 살펴 보았습니다. 나는 이것이 사소한 문제라고 생각하지 않습니다 .100의 10 세트를 분석하는 것과 비교하여 1000 데이터를 하나의 세트로 분석하는 것의 차이점을 다시 생각하십시오. 이론적으로 , 귀무 가설이 데이터가 iid라는 것이 사실이라면, 그것은 차. 그러나 데이터의 군집화 및 패턴은 단순히 1000 데이터의 평균을 취하고 추정 평균 및 관련 표준 오류를 인용하면 전혀 해결되지 않습니다.

stackexchange 및 wikipedia에 대한 일부 페이지를 살펴보면 내가 얻은 결론은 빅 데이터가 명백한 것을 볼 수 있다는 것입니다. 전체 인구 집단에 흥미로운 기능이있는 경우 큰 데이터 세트가 기능을 명확하게 보여줍니다. 따라서 시각적으로 볼 수있는 매우 큰 데이터 집합이있는 경우 먼저 명확한 기능을 찾지 않으면 서 간단한 요약 조치를 취하지 않습니다. 통계적 추론에 대한 나의 초기 교훈에서 나는 데이터의 그래프와 시각화를 첫 번째 단계로 보는 법을 배웠다. 나는 그것을 충분히 강조 할 수 없습니다. 데이터 세트가 사람이 화면을보기에 너무 큰 경우, 사람이 읽을 수있는 해상도에서 서브 샘플링해야합니다.


게시물에 서명하지 마십시오. 게시물 오른쪽 하단에있는 사용자 이름입니다.
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.