샘플링 과정을 배울 때 다음 두 가지 진술을 충족시킵니다.
1) 샘플링 오류는 대부분 가변성, 비 샘플링 오류는 편차를 유발합니다.
2) 비 샘플링 오차로 인해 샘플이 종종 CENSUS보다 정확합니다.
나는이 두 진술을 이해하는 방법을 모른다. 이 두 문장을 얻는 기본 논리는 무엇입니까?
샘플링 과정을 배울 때 다음 두 가지 진술을 충족시킵니다.
1) 샘플링 오류는 대부분 가변성, 비 샘플링 오류는 편차를 유발합니다.
2) 비 샘플링 오차로 인해 샘플이 종종 CENSUS보다 정확합니다.
나는이 두 진술을 이해하는 방법을 모른다. 이 두 문장을 얻는 기본 논리는 무엇입니까?
답변:
운동이 센서스라는 사실이 비 샘플링 오차로부터의 편향을 증가 시키면 샘플은 (시도한) 센서스보다 더 정확할 수 있습니다. 예를 들어, 인구 조사가 무응답을 옹호하는 불리한 정치 캠페인을 생성하는 경우 (샘플에 덜 영향을 줄 수있는 것)가 발생할 수 있습니다. 이것이 발생하지 않는 한, 왜 표본이 센서스보다 비 샘플링 오차가 적을 것으로 예상되는지 알 수 없습니다. 정의상 더 많은 샘플링 오류가 발생합니다. 매우 특이한 상황을 제외하고는 인구 조사가 표본보다 더 정확하다고 말할 것입니다.
예를 들어 특정 사회 인구 통계 그룹에 의한 비 샘플링 오류의 일반적인 원인-체계적인 비 응답을 고려하십시오. 그룹 X의 사람들이 센서스를 거부 할 가능성이 있다면 샘플을 거부 할 가능성이 높습니다. 문제를 해결하기 위해 설득 한 그룹 X 그룹의 응답에 가중치를 부여하기 위해 사후 계층화 샘플링을 사용해도 여전히 문제가 있습니다. 왜냐하면 X는 프로 서베이의 X 부분 일 수 있기 때문입니다. 계측기 디자인 및 배송 방법에 최대한주의를 기울이는 것 외에는이 문제를 해결할 수있는 방법이 없습니다.
통과하면서, 이것은 시도 된 인구 조사를 표본보다 덜 정확하게 만들 수있는 한 가지 가능한 문제에주의를 기울입니다. 샘플은 일반적으로 인구에 대한 계층화 후 가중치를 가지므로 위의 단락과 같은 문제로 인한 편향 문제를 완화합니다. 100 % 수익을 얻지 못하는 인구 조사 시도는 단지 큰 표본 일 뿐이며 원칙적으로 동일한 처리를 거쳐야합니다. 그러나 그것이 시도 된 인구 조사가 아닌 "인구 조사"로 간주되기 때문에 이것은 무시 될 수 있습니다. 따라서 인구 조사 는 적절한 가중치를 부여한 표본보다 정확도가 떨어질 수 있습니다. 그러나이 경우 문제는 센서스 처리 시도에 내재 된 것이 아니라 분석 처리 기술 (또는 생략)입니다.
효율적인은 또 다른 문제입니다 - 미셸 말한대로 잘 진행 샘플은 인구 조사보다 더 효율적입니다, 그것은 잘 실제적인 목적에 대한 충분한 정확도를 가질 수있다.
샘플이 더 정확한 실제 상황이 있다고 생각합니다. 예를 들어, 우리는 개발 도상국의 한 도시에서 등록되지 않은 장소에 많은 사람들이 살고 있고, 사람들이 끊임없이오고 가고 응답하는 것을 부끄러워하는 연구를했습니다. 실제로 인구 조사를 수행하려면 허 큘린 노력이 필요했을 것이며, 우리의 자원을 고려할 때 사람들이오고 갈 때 몇 달 동안 수행되었을 것입니다. 샘플을 사용하면 가능한 한 완전한 응답에 가까워 지도록 더 많은 시간을 할애 할 수 있습니다. 우리가하고있는 일을 설명 할 수 있기 때문에 훨씬 짧은 시간 동안 문제를 제거 할 수 있습니다. 도시로 들어오고 나가는 사람들의.
그래서 대답은 당신이하는 일의 물류와 비 샘플링 오류의 다양한 원인에 더 달려 있다고 생각합니다.
실제로, 또 다른 출처는 우리의 조사가 복잡하고 우리는 면접관을 훈련시켜야했고, 그 나라에서 충분한 훈련 가능한 면접관을 찾고 자금을 조달하는 것은 매우 어려울 것이라는 것이 었습니다.
사람을 대상으로 설문 조사를 샘플링 할 때, 표본은 종종 표본 추출 오류 (예상치 만 얻음) 와 비 샘플링 오류 ( 예 : 비용과 같은 실제 고려 사항으로 인해 필요한 표본 프레임으로 표본을 채취하지 않고 설문에 응답하지 않는 사람 )으로 고통받습니다. 표본을 추출하기 위해 모집단을 정확하게 식별 할 수 없음). 응답 속도가 높은 샘플은 센서스보다 효율적입니다. 그러나 비 샘플링 오류가 포함 된 샘플이 없다고 가정하는 것은 올바르지 않습니다.
그들이 핵심은 Peter Ellis의 대답 인 "시도"에 있다고 생각합니다. 표본 추출을 제대로 수행하면 무응답의 세부 사항을 땀을 흘리고 지층을 파악하고 찾아내는 등의 조사를합니다. 인구 조사를 결정하면 "모두"가되기 때문에 이러한 문제를 무시하기 쉽습니다. 문제는 아마도 모든 사람을 얻지는 못하지만 실제로 자신을 얻지 못하는 사람에 대해서는 생각하지 않는 것입니다.
(표본 모집단의 비율로) 매우 큰 표본에 대한 통계적 문제도 있습니다. 나는 그것들을 이해할만큼 정교하지는 않지만 최소한 분산 계산에 문제가 있습니다. (R과 같은 패키지 survey
는 설문 조사의 대규모 소집단에서 그러한 것들을 보상하며, 이것이 내가 처음 알게 된 곳입니다.)
2 차 문제로, 비 샘플 오류에 공정의 여러 단계에서 품질 관리로 인한 문제가 포함 된 경우, 더 많은 데이터 (수집)를 가지면 품질 관리 수준을 유지하기가 훨씬 어려워집니다. 더 작은 데이터 세트 (샘플)
미국 인구 조사국이 인구 조사에 사용한 자원 (재무 및 인력)을 가지고 있지만 1,000 명의 무작위 성인에 대한 조사 만 수행했다고 가정 해보십시오. 나는 당신이 훨씬 더 나은 품질 관리와 관련된 문제와 데이터 자체에 대한 훨씬 더 나은 분석을 가질 것이라고 생각합니다.