분포를 모르는 경우 샘플링하는 방법


9

나는 통계 (소수의 초급 Uni 코스)에 익숙하지 않고 알려지지 않은 분포에서 샘플링하는 것에 대해 궁금했습니다. 특히 기본 분포에 대해 잘 모를 경우 대표 표본을 확보 할 수있는 방법이 있습니까?

예를 들어 설명 : 전 세계 부의 분포를 파악하려고한다고 가정하십시오. 주어진 개인에 대해 어떻게 든 그들의 정확한 부를 찾을 수 있습니다. 지구상의 모든 사람을 "샘플링"할 수는 없습니다. 자, n = 1000 명을 무작위로 샘플링한다고 가정 해 봅시다.

  1. 샘플에 Bill Gates가 포함되어 있지 않으면 억만 장자가 없다고 생각할 수 있습니다.

  2. Bill Gates가 포함 된 표본을 가지고 있다면 억만 장자가 실제보다 더 일반적이라고 생각할 수 있습니다.

두 경우 모두 억만 장자가 얼마나 흔하거나 희귀한지 알 수 없습니다. 당신은 전혀 존재하는지 말할 수 없을 수도 있습니다.

이런 경우에 더 나은 샘플링 메커니즘이 있습니까?

어떤 샘플링 절차를 사용해야하는지 (그리고 몇 개의 샘플이 필요한지) 어떻게 사전에 알 수 있습니까?

합리적인 확실성에 접근하는 것, 지구상에서 억만 장자가 얼마나 흔하거나 희귀한지 알기 위해 인구의 많은 비율을 "샘플링"해야 할 수도 있습니다. 함께 일합니다.


1
부의 경우에는 정확히 목표가 무엇인지에 달려있다. 예를 들어, 개인이 상위 10 %, 상위 20 % 등으로 부를 부의 수준을 추정하는 것이 목표라면, 표본에 억만 장자가 포함되어 있는지 여부는 중요하지 않습니다. 그러나 총 10 %까지 총 보유 자산의 비율을 추정하는 것이 목표라면, 샘플링이 억만 장자를 어떻게 처리했는지는 아마도 중요 할 것입니다. 여기에서 일반적인 요점은 샘플이 대표적인지 여부는 항상 수행하려는 작업과 관련이 있다는 것입니다.
Adam Bailey

정말? 열린 문제, 대답이 좋고, 여전히 근사치입니다 (때로는 더 좋고 때로는 더 나쁩니다). 그것은 개방형 문제 일 수도 있고 아마도 통계의 단일 개방형 문제 일 수도 있습니다
Nikos M.

답변:


9

"어쨌든 억만 장자가 얼마나 흔하거나 희귀한지 알 수 없다"는 귀하의 주장에 이의를 제기합니다. 인구의 미지의 억만 장자라고 하자 . 앞서 균일 한 , 백만원을 갖는 것으로 밝혀진 추첨 후 의 사후 분포 는 Beta (1,1001) 분포입니다. 에프에프에프1000p (f | b = 0)

추첨 후 의 사후 분포 가 10 억 장자 인 것으로 판명되었지만 Beta (2,1000) 분포는 다음과 같습니다. 에프1000p (f | b = 1)

두 경우 모두 입니다. 당신은 그것이 충분히 정확하지 않다고 생각할 수도 있습니다. 그러나 실제로는 크기가 1000 인 표본의 경우 0.01이 매우 정확합니다. 추정 할 수있는 대부분의 다른 수량은 이보다 덜 정확합니다. 예를 들어, 남성의 비율은 0.1 크기의 범위 내에서만 추정 할 수 있습니다. 에프<0.01


7

할 수있는 두 가지가 있습니다 (별도 또는 조합)

꼬리를 모델링

하나는 모수 분포를 사용하여 분포의 꼬리를 모델링하는 것입니다. 전력 법은 부의 분포에 잘 맞는 것으로 알려져 있으므로 파레토 분포를 시도하십시오. 최대 가능성, 즉 표본을 가장 잘 나타내는 모수를 찾아서 해당 분포에 맞출 수 있습니다. 또는 매개 변수에 베이지안 우선 순위를두고 전체 후부를 계산할 수 있습니다.

불행히도, 전력 법칙은 매개 변수에 매우 민감하며 표본에 많은 데이터 포인트가 없으면 지수에 대한 많은 불확실성이 있습니다. 추정되는 억만 장자 수는이 매개 변수에 민감하지만 평균 억만 장자보다 훨씬 적으므로 상황은 그리 나쁘지 않습니다.

중요성 샘플링

다른 하나는 샘플 수집 방법을 변경하는 것입니다. 모가 디시 우보다 모나코 나 취리히에서 1 인당 억만 장자가 더 많다고 생각한다고 가정 해 보자. 이러한 각 도시의 인구를 알고 있다면 더 많은 억만 장자가있는 도시에서 더 큰 표본을 수집 할 수 있고 다른 도시에서는 더 작은 표본을 수집 할 수 있습니다.

취리히는 400,000 명, 모가디슈는 1,400,000 명이며 우리는 9,000 명을 조사하고 싶다고 말하십시오. 우리는 여기서 억만 장자가 아닌 백만장 자의 수에 관심이 있습니다.

편견이없는 표본은 취리히에서 2,000 명, 모가디슈에서 7,000 명을 선택할 것입니다. 그러나, 우리는 취리히로부터 7 배 더 자주 샘플링함으로써 샘플을 편향시킬 것입니다. 따라서 취리히의 인구는 2,800,000 명으로 추후 조정됩니다. 이것은 우리가 모가디슈에서 2,000 명과 4,000 명 대신 취리히에서 6,000 명을 조사한다는 의미입니다.

우리는 취리히 표본에서 2,100 만 명의 자손을, 모가디슈 표본에서 1 명만 계산한다고 가정 해 봅시다. 우리는 취리히 7 배를 과도하게 샘플링했기 때문에 3 백만장 자로 간주합니다.

이 절차는 추정기의 분산을 줄입니다. 첫 번째 방법과 함께 사용할 수도 있으며,이 경우 모수 분포를 피팅 할 때 중요도 샘플링을 조정합니다.


6

좋은 샘플링 방법은 시스템에 대한 사전 지식을 바탕으로합니다. 해당 분야에서는 샘플링에 영향을 줄 수있는 잠재적 바이어스에 대한 지식이 있습니다. 그러한 지식이 없으면 문헌에서 지식을 얻을 수 있습니다.

귀하의 예에서, 당신은 억만 장자가 있고 샘플링을 편향시킬 수 있음을 알고 있습니다. 따라서 교육 수준, 국가, 직업 유형 등으로 샘플링을 계층화하기로 결정할 수 있습니다. 여러 가지 옵션이 있습니다.

다른 예를 들어 봅시다. 당신의 목표는 공원에서 생쥐 종의 존재비를 결정하는 것입니다. 이 공원에는 숲과 초원이 있습니다. 문헌에 따르면, 쥐보다 초원에서 생쥐가 더 풍부하다는 것을 알고 있습니다. 따라서이 특성으로 샘플링을 계층화하십시오. 다른 샘플링 절차도 가능하지만 최선의 정보는 기존 문헌에서 얻은 것으로 생각합니다.

그리고 당신의 분야에 관한 문헌이 없다면? 불가능한 상황이지만 샘플링을 위해 어떤 요소를 고려해야하는지 미리 연구 할 것입니다.


2

샘플이 대표적인지 여부는 관찰 된 샘플의 측정 값과 관련이 없습니다. 모든 관측 단위 세트가 동일한 크기의 다른 세트와 동일한 확률을 갖는 경우 표본이 대표적입니다. 물론 샘플 공간을 완전히 열거 할 수 없다면이 작업은 어렵습니다. 예를 들어 인구 조사 자료 데이터에서 얻을 수 있다고 가정하면 간단한 임의 샘플이 대표적입니다.

표본을 어떻게 구하든 항상 고려해야 할 최소한 세 가지 오류 원인이 있습니다.

샘플링 오류 : 우연히 대표 샘플에 Bill Gates를 포함시킵니다. 통계적 방법, 특히 신뢰 구간의 폭 등은 현재 분포에 대한 대략적인 지식이있는 경우 (예 : 자산 분배가 확실하지 않은 정규성)이를 처리하도록 설계되었습니다.

샘플링 바이어스 : 샘플이 대표적이지 않았습니다. 예 : Bill Gates에는 목록에없는 번호가 있으므로 "임의 숫자 다이얼링"과 같은 것을 사용하지 않는 한 전화 설문 조사는 그에게 도달 할 수 없습니다. 이것은 극단적 인 예이지만 샘플링 바이어스는 매우 광범위합니다. 일반적으로 발생하는 현장 또는 편의 샘플은 다음과 같습니다. 식당 에서 식당 손님을 방문 하여 장소의 선호 여부, 방문 빈도 및 귀국 계획 여부를 샘플링 합니다. 반복 고객은 일회성 고객보다 샘플링 될 가능성이 훨씬 높으며 이러한 유형의 샘플은 태도에 심각하게 편향 될 수 있습니다.

응답 바이어스 : 측정 자체가 정확하지 않습니다. 이것은 미터의 오작동에서 의식적인 거짓말에 이르기까지 양자 효과 (예 : Heisenberg의 불확실성 원리)에 이르기까지 발생할 수 있습니다.


이 답변에는 유용한 조언이 있으며 좋은 근거가 있습니다. 그러나 "대표"의 특성화는 계층화 된 표본 추출, 중요도 표본 추출 및 체계적인 표본 추출 양식과 같이 일반적이고 유용한 표본 양식 (다른 답변에 구체적으로 언급 된 일부 포함)을 제외하기 때문에 너무 제한적일 수 있음을 제안하고 싶습니다. . 관측 단위 집합을 포함 할 가능성이 알려져있을 때 (따라서 편견없는 추정값을 생성하는 데 사용할 수있는) 표본이 대표적이지만 주어진 크기의 모든 집합에 대해 반드시 일정하지는 않은 것으로 충분하지 않습니까?
whuber

@whuber "모든 관측 단위를 포함 할 가능성이 알려진 경우 표본을 대표하는 것으로 충분하지 않을 것입니다 ...": 이것은 정확하며 계층화 된 표본 추출 및 중요도 표본 추출을 인정하기 위해 답을 편집해야합니다. 그러나 체계적인 샘플링은 까다 롭고 링크 및 다른 곳 에서 제공된 조언 은 단순히 잘못되었습니다. 데이터에 체계적인 패턴이있는 경우 무작위 시작점이 바이어스를 제거하지는 않지만 바이어스를 계산할 수 없도록하기 만하면됩니다.
user3697176

아마도 지금까지 가장 좋은 답은 (통계 포인트로 직접 조준한다는 의미에서)
Nikos M.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.