대표 샘플링 문제


5

궁금합니다. 실험적이지 않은 분석을 위해 큰 데이터 집합의 하위 샘플을 만들 때마다 무작위 샘플링이 아닌 대표 샘플링을 사용하여 발생하는 문제는 정확히 무엇입니까? 또한, 실험이 아닌 분석에 대해 균형 잡힌 비교 그룹을 만들려고 할 때마다 성향 스코어 매칭이 얼마나 효과적입니까?


2
대표 샘플링이란 무엇입니까? 여기에 두 가지 질문이 있다고 생각합니다. 나는 그들을 분리 할 것입니다. 또한,이 (아마도 더 적합 에 대한 논외) stats.stackexchange.com
luchonacho

질문을 분리 할 수는 있지만 시너지 효과가 있으므로 함께 질문했습니다. 요점은 성향 매칭이 스커트 샘플링 문제에 종종 사용되는 옵션이라는 것입니다.
123

대표 샘플링이란, 계층화 된 샘플링 을 의미 합니까?
luchonacho

@luchonacho와 동의 : "대표적 샘플링"은 매우 유용한 용어가 아닙니다. Kruskal과 Mosteller jstor.org/stable/1402564?seq=1#page_scan_tab_contents에 의해 논의 된 바와 같이 그 해석은 작가에 따라 다르며 "데이터에 대한 일반적이고 정당화되지 않은 찬사"를 의미 할 수 있습니다.
Geoffrey Brent

괜찮아. 이종 밀짚에 닿지 않는 모든 사람들을 위해 이것을 고정 시키십시오. 이러한 맥락에서 대표 샘플링은 관심있는 특성에 따라 더 큰 통계 모집단을 적절히 복제하는 대규모 통계 모집단으로부터 서브 샘플을 구성 할 때를 의미합니다. 그래서 저는이 단어가 압도적 인 대다수의 경제학자들이 그 단어의 의미를 원하는 것을 의미하도록 의도했습니다.
123

답변:


1

첫 번째 질문에 대답하려면 사용하려는 하위 샘플에 따라 다릅니다.

대표 또는 계층화 된 샘플은 관심있는 모집단을 겹치지 않는 서브 세트로 나누고 각 서브 세트에서 무작위 샘플을 가져온 다음 샘플의 모든 요소가 동일한 선택 확률을 갖지 않았다는 사실을 조정하기 위해 가중치를 계산하여 구성됩니다. 인구에서.

대표 또는 계층화 된 표본을 사용하는 이점은 모집단에 대한 정보를 사용하여 표본을 구성 할 수 있으므로 관심 모집단에 대해보다 신뢰할 수있는 통계 추정값을 계산할 수 있다는 것입니다. 단점은 계산 한 가중치가 생성 한 계층화 된 샘플에 적합하지만 계층간에 다른 특성을 탐색하려는 경우 이러한 가중치가 잘못된 가중치 일 수 있다는 것입니다. 추정치가 편향되어있을 수 있으며이 편향을 조정할 수 없을 것입니다.

성향 점수 매칭에 관해서. 볼 수있는 것만 일치시킬 수 있습니다. 변수 바이어스 생략 문제를 여전히 해결해야합니다. 성향 스코어 매칭은 편향을 감소시키기보다는 증가 할 가능성이 있습니다. 그것이 얼마나 효과적인지는 어떤 가정을하는지 그리고 이러한 가정을 유지하는지에 달려 있습니다.


0

모집단을 대표하는 표본은 표본의 일부 속성 분포와 무관합니다. 중요한 것은 표본에 포함될 단위의 확률이 전체 모집단에서 동일하다는 것입니다. 인구에서 여성의 비율을 추정한다고 가정 해 봅시다. 모집단에서 무작위 표본 추출 표본을 추출하면 표본이 임의이기 때문에 표본에서 여성의 비율이 모집단에서 여성의 비율에 대해 일관된 추정치입니다. 샘플링 오류로 인해 동일하지 않습니다. 더 크고 더 큰 표본을 추출 할 때 여성 점유율의 추정치는 모집단 값에 수렴됩니다.

이제 여성의 인구 비율을 이미 알고 있고 다른 것을 추정하고 싶다고 가정 해 봅시다. 관심 인구가 6 명, 2 명, 4 명으로 구성되어 있다고 가정하겠습니다. 교체하지 않고 3 명의 표본을 추출합니다. 랜덤 샘플링의 경우 모집단에서 각 사람의 샘플링 확률은 1/2입니다. 1 명의 여성과 2 명의 남성으로 구성된 계층화 된 표본을 추출하는 경우 모집단 확률은 모집단의 각 사람에 대해 1/2이므로 여전히 두 표본 추출 방식이 모두 모집단을 대표합니다.

샘플을 층화하여 얻을 수있는 것이 있습니까? 추정하고 싶은 것이 성별과 무관하다면 아무것도 얻지 못할 것입니다. 그러나 성별과 무관 한 것을 추정하려면 계층화 된 표본이 표본 추출 오류를 줄임으로써보다 정확한 추정치를 제공합니다. 단점은 어떤 이유로 든 잘못된 샘플링 확률을 사용하고 조정하지 않으면 치우친 추정치를 얻는다는 것입니다.

RE : 나는이 대답이 대부분 위의 것과 중복된다는 것을 깨달았습니다. 미안합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.