무작위 표본이 명확하지 않은 경우 어떻게해야합니까?


28

당신은 무작위로 샘플을 채취하고 그것이 같이 명확하게 반영하지 않고 볼 수있는 경우에는 어떻게 최근 질문 . 예를 들어 모집단 분포가 0을 기준으로 대칭 인 것으로 가정하고 무작위로 추출한 표본에 불균형 긍정적 및 부정적 관측치가 있고 불균형이 통계적으로 유의하면 어디에서 벗어날 수 있습니까? 치우친 표본을 기반으로 모집단에 대해 어떤 합리적인 진술을 할 수 있습니까? 그러한 상황에서 합리적인 행동 과정은 무엇입니까? 우리 연구에서 이러한 불균형을 발견 할 때 문제가됩니까?


2
Michael, 통계적 유의성을 지표로 사용하면이 문제는 20 년에 한 번 발생할 것으로 예상됩니다. 우리는 모집단에 대해 충분히 알지 못하기 때문에 비 대표 표본을 무작위로 언제 선택했는지 알 수 없습니다. 그러나 우리는 인구에 대해 무언가를 알고 그러한 이상을 발견하면 어떻게해야합니까?
Joel W.

3
예, 가장 올바른 방법은 @MichaelChernick이 쓴 것처럼 충분히 큰 무작위 샘플을 얻는 것입니다. 그러나 교수 중 한 명은 Monte Carlo 시뮬레이션을 통해 연구원이 표본 크기를 늘려야 할 때 단순히 통계적 단합을 표본에 추가하는 것이 정확하지는 않지만 표본 추출을 반복해야한다고 검증했다고 말합니다. 그렇지 않으면 통계가 편중 될 수 있습니다 (다시 한번!).
this.is.not.a.nick

4
@Michael, 나는 왜 당신의 진술이 사실인지 이해하지 못합니다. .05 미만의 p- 값 은 표본 크기에 관계없이 시간의 귀무 가설 5 %에서 발생합니다 . 그렇다면 더 큰 표본 크기가이 문제를 어떻게 해결할 수 있습니까? 당신의 추천은 독자들이 가설 검정의 크기와 힘을 혼동하도록 암묵적으로 초대합니다.
whuber

2
@Michael, 더 많은 데이터를 무작위로 수집해야한다는 것은 무엇을 의미합니까? 다른 방향으로 편향된 샘플을 무작위로 추출하기를 희망해야합니까? 어쨌든 우리는 몇 개의 추가 사례를 그려야합니까? 처음에 번호를 설정하거나 중지 규칙을 사용하도록 제안 하시겠습니까? 중지 규칙 인 경우 규칙은 어떻게 표시됩니까? 마지막으로 결과적으로 더 큰 표본에 통계적으로 유의 한 치우침이없는 경우에도 두 개의 표본 (편향이있는 샘플과 그렇지 않은 샘플)으로 구성됩니다. 그러한 복잡한 표본을 바탕으로 모집단에 대해 어떤 합리적인 진술을 할 수 있습니까?
Joel W.

2
@Michael 대안 결론은 매우 중요하고 치우친 표본이 표본 추출 절차에 문제가 있음을 나타냅니다. 그렇다면 대칭이 부족하면 더 큰 샘플에서 지속됩니다.
whuber

답변:


7

MLS에 의해 주어진 대답 (사용의 중요성 샘플링은) 단지 당신이 당신의 배포판에 대해 만들 수있는 가정 좋은 같습니다. 유한 모집단 샘플링 패러다임의 주요 강점은 유한 모집단 모수에 대한 (유효한) 추론을위한 데이터의 분포에 대한 가정을하지 않기 때문에 비모수 적이라는 것입니다.

샘플 불균형을 바로 잡기위한 접근 방식을 사후 층화 라고 합니다. 표본을 겹치지 않는 클래스 (포 스트라타)로 분류 한 다음 알려진 인구 수에 따라 이러한 클래스의 가중치를 조정해야합니다. 모집단의 중앙값이 0 인 것으로 알려진 경우, 가중 비율이 50-50이되도록 양수 및 음수 관측 값의 가중치를 조정할 수 있습니다. 10 개의 음수 관측 값과 20 개의 양수 관측 값이있는 운이 좋지 않은 SRS가있는 경우 음수는 15/10 = 1.5의 무게이고 양수는 15/20 = 0.75입니다.

더 미세한 형태의 샘플 보정 이 존재하는데 , 여기에는 연속 변수의 평균이 특정 값과 같도록하는 등 일반적인 제약 조건을 충족하도록 샘플을 보정 할 수 있습니다. 대칭 구속 조건도 작업하기가 매우 어렵지만 가능할 수도 있습니다. Jean Opsomer 가 이것에 대해 알고 있을 수도 있습니다 . 그는 설문 조사 데이터를 위해 많은 커널 추정 작업을 해왔습니다.


사후 층화는 논리적으로나 통계적으로 어떻게 불균형 샘플을 버리고 다른 샘플을 그리는 것과 비교할 수 있습니까? (때로는 샘플을 그리는 것이 연구의 노동 집약적 인 부분이지만, 때로는 많은 실험적 연구 에서처럼 노동 집약적 인 샘플을 그리고 샘플을 그리는 것이 상대적으로 적은 노력을 기울인 후에 수행되는 일입니다.)
Joel W .

2
나는 데이터를 버리는 것이 가장 좋은 상황에 처한 적이 없었으며, 설문 조사 통계 서적에서 논의 된 것을 본 적이 없습니다. 대부분의 설문 조사 통계에서 데이터를 얻는 것은 다음의 데이터 처리 및 분석 중 적어도 5 배 이상 비쌉니다 (데이터 수집이 거의 무료 인 일부 싼 웹 설문 조사는 제외). 실험적인 세계에 있다면 게시물에 "샘플링"태그를 지정하지 말고 "실험 디자인"을 대신 사용하십시오.
StasK

실제 환경에서 계층화 할 수있는 방법이 많기 때문에 계층화되지 않고 임의의 샘플을 사용할 수 있습니다. 실험을 위해 두 개의 무작위 표본을 선택한 후 일부 불균형이 나타날 수 있습니다. 그런 다음 바위와 어려운 장소에 갇혀 있습니다 : 불균형 (예 : 한 그룹의 모든 노인, 한 그룹의 모든 비 원어민, 한 그룹의 모든 박사 학위 등)과 함께 살거나 새 샘플을 작성하고 수행 한 작업과 모든 통계 기법의 가정 간의 연결을 약화시킵니다. 층화 후 두 번째 유형 인 것 같습니다.
Joel W.

2

여기 주니어 회원을 해요,하지만 난 버리고 처음부터 다시하는 것이 가장 좋은 대답은 항상라고 말하고 싶지만 경우 당신이 알고있는 샘플이 상당히 대표성 것을, 당신은 대표성 샘플링 첫 번째 장소에서 발생하는 방법에 대한 아이디어가 있다면 그리고 가능하다면 두 번째로 피하는 방법.

아마도 같은 배에 타게된다면 두 번째 샘플링에 어떤 도움이 될까요?

데이터 수집을 다시 수행하는 것이 의미가 없거나 엄청나게 비용이 많이 드는 경우 계층화, 대치, 더 멋진 모델링 또는 기타를 통해 대표성을 보완하려고 시도하고있는 것을 가지고 작업해야합니다. 이러한 방식으로 보상 한 이유, 필요하다고 생각하는 이유 및 효과가 있다고 생각하는 이유를 분명히 알아야합니다. 그런 다음 분석을 통해 보상에서 발생하는 불확실성을 처리하십시오. (그것은 당신의 결론을 덜 확실하게 만들 것입니까?)

그렇게 할 수 없으면 프로젝트를 완전히 삭제해야합니다.


표본이 왜 대표성이 아닌지 모를 경우, 표본을 폐기하고 새로운 무작위 표본을 추출하는 것이 여전히 정당합니까? 그렇지 않다면 왜 안됩니까? 또한 첫 번째 샘플을 폐기하고 두 번째 샘플을 추출한다고 가정 해 봅시다. 두 번째 샘플을 기반으로 계산할 수있는 추론 적 통계는 첫 번째 샘플이 폐기되어 부적절한 방식으로 계산됩니까? 예를 들어, 대표가 아닌 샘플을 폐기하는 경우 통계 테스트의 기반이되는 샘플링 분포를 변경합니까? 그렇다면 통계적 유의성을 찾기가 더 쉽거나 어렵습니까?
Joel W.

@ 웨인 좋은 생각.
Subhash C. Davar

1

qpp

sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,

샘플이 바이어스되지 않았으며 샘플을 수정하려고하면 바이어스가 추가됩니다. 샘플을 수집하는 과정에는 편향이 없지만 실제로는 샘플이 편향되어있을 수 있습니다. 비교적 작은 추가 바이어스를 유발할 것으로 예상되는 알려진 큰 바이어스를 수정하려고 시도하는 방법이 있습니까?
Joel W.

1
용어를 명확하게하기 위해 : 편견을 임의 변수의 기대 특성으로 생각합니다. 다시 말해, 데이터를 수집하는 프로세스가 편향되지 않은 경우 샘플도 마찬가지입니다. 그러나 표본은 여전히 ​​비정형 일 수 있으며 원하지 않는 결론으로 ​​이어질 수 있습니다. (비 편향) 샘플링 절차를 채택하고 있기 때문에이 문제를 해결하는 일반적인 방법은 편향을 유발합니다. 아마도 덜 편향된 접근법은 새로운 샘플을 수집하고 사용하는 것입니다. 약간 더 편향된 접근 방식은 이러한 새로운 샘플을 기존 샘플에 추가하지만 전체 샘플이 더 많으므로 결과의 변동이 적을 수 있습니다.
MLS

2
@Joel W. 샘플이 바이어스되었다는 말의 의미는 무엇입니까? 편향된 표본을 기반으로 한 평균의 추정치입니까? 모든 표본 추정치는 실제 평균과 다르며 일부는 멀리 떨어질 수 있습니다. 무작위로 샘플링 할 때 이는 편차가 아닌 분산 때문입니다. 표본의 분포가 모집단의 분포와 크게 다른 것으로 알려져 있기 때문에 표본이 편향되어 있다고 말하는 것은 옳지 않습니다. 작은 샘플에서 많은 이유는 다른 이유로 대표적이지 않을 수 있지만 무작위 샘플링은 바이어스 샘플링이 아닙니다.
Michael R. Chernick

1
@Michael, 나는 우리가 할 때 무작위 차이를 인식하고 살아야한다는 데 동의합니다. 의도하지 않은 분산을 감지하면 합리적으로 수행 할 수있는 작업을 묻습니다. 우리의 무작위 표본에 해당 범주가 우리의 연구와 관련이있을 때 상대적으로 너무 많은 젊은이 또는 너무 많은 블루 칼라 노동자 등이 포함되는 것으로 밝혀지면 어떻게해야합니까? 더 나아가서, 우리는 샘플이 그런 식으로 불균형인지 확인해야합니까? 샘플로 추가 연구를 수행하기 전에 또는 샘플로 연구를 수행하는 데 리소스를 투자 한 후에도이 사실을 알 수 있습니까?
Joel W.

1
공변량 불균형이 매우 중요합니다. 샘플에 존재하는 경우 회귀 모델을 사용하여 조정할 수 있습니다. Vance Berger는이 웹 사이트에서 이전에 인용 한이 주제에 관한 책을 저술했습니다. 다음은 책 설명에 대한 아마존 링크입니다. amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.