궁금합니다. 실험적이지 않은 분석을 위해 큰 데이터 집합의 하위 샘플을 만들 때마다 무작위 샘플링이 아닌 대표 샘플링을 사용하여 발생하는 문제는 정확히 무엇입니까? 또한, 실험이 아닌 분석에 대해 균형 잡힌 비교 그룹을 만들려고 할 때마다 성향 스코어 매칭이 얼마나 효과적입니까?
궁금합니다. 실험적이지 않은 분석을 위해 큰 데이터 집합의 하위 샘플을 만들 때마다 무작위 샘플링이 아닌 대표 샘플링을 사용하여 발생하는 문제는 정확히 무엇입니까? 또한, 실험이 아닌 분석에 대해 균형 잡힌 비교 그룹을 만들려고 할 때마다 성향 스코어 매칭이 얼마나 효과적입니까?
답변:
첫 번째 질문에 대답하려면 사용하려는 하위 샘플에 따라 다릅니다.
대표 또는 계층화 된 샘플은 관심있는 모집단을 겹치지 않는 서브 세트로 나누고 각 서브 세트에서 무작위 샘플을 가져온 다음 샘플의 모든 요소가 동일한 선택 확률을 갖지 않았다는 사실을 조정하기 위해 가중치를 계산하여 구성됩니다. 인구에서.
대표 또는 계층화 된 표본을 사용하는 이점은 모집단에 대한 정보를 사용하여 표본을 구성 할 수 있으므로 관심 모집단에 대해보다 신뢰할 수있는 통계 추정값을 계산할 수 있다는 것입니다. 단점은 계산 한 가중치가 생성 한 계층화 된 샘플에 적합하지만 계층간에 다른 특성을 탐색하려는 경우 이러한 가중치가 잘못된 가중치 일 수 있다는 것입니다. 추정치가 편향되어있을 수 있으며이 편향을 조정할 수 없을 것입니다.
성향 점수 매칭에 관해서. 볼 수있는 것만 일치시킬 수 있습니다. 변수 바이어스 생략 문제를 여전히 해결해야합니다. 성향 스코어 매칭은 편향을 감소시키기보다는 증가 할 가능성이 있습니다. 그것이 얼마나 효과적인지는 어떤 가정을하는지 그리고 이러한 가정을 유지하는지에 달려 있습니다.
모집단을 대표하는 표본은 표본의 일부 속성 분포와 무관합니다. 중요한 것은 표본에 포함될 단위의 확률이 전체 모집단에서 동일하다는 것입니다. 인구에서 여성의 비율을 추정한다고 가정 해 봅시다. 모집단에서 무작위 표본 추출 표본을 추출하면 표본이 임의이기 때문에 표본에서 여성의 비율이 모집단에서 여성의 비율에 대해 일관된 추정치입니다. 샘플링 오류로 인해 동일하지 않습니다. 더 크고 더 큰 표본을 추출 할 때 여성 점유율의 추정치는 모집단 값에 수렴됩니다.
이제 여성의 인구 비율을 이미 알고 있고 다른 것을 추정하고 싶다고 가정 해 봅시다. 관심 인구가 6 명, 2 명, 4 명으로 구성되어 있다고 가정하겠습니다. 교체하지 않고 3 명의 표본을 추출합니다. 랜덤 샘플링의 경우 모집단에서 각 사람의 샘플링 확률은 1/2입니다. 1 명의 여성과 2 명의 남성으로 구성된 계층화 된 표본을 추출하는 경우 모집단 확률은 모집단의 각 사람에 대해 1/2이므로 여전히 두 표본 추출 방식이 모두 모집단을 대표합니다.
샘플을 층화하여 얻을 수있는 것이 있습니까? 추정하고 싶은 것이 성별과 무관하다면 아무것도 얻지 못할 것입니다. 그러나 성별과 무관 한 것을 추정하려면 계층화 된 표본이 표본 추출 오류를 줄임으로써보다 정확한 추정치를 제공합니다. 단점은 어떤 이유로 든 잘못된 샘플링 확률을 사용하고 조정하지 않으면 치우친 추정치를 얻는다는 것입니다.
RE : 나는이 대답이 대부분 위의 것과 중복된다는 것을 깨달았습니다. 미안합니다.