실제 응용 분야에서 교체하지 않고 샘플링을 고려해야하는 이유는 무엇입니까?


13

교체를 통한 샘플링은 내가 볼 때 교체하지 않고 샘플링하는 것보다 두 가지 장점이 있습니다.

1) 유한 모집단 수정에 대해 걱정할 필요가 없습니다.

2) 모집단의 요소가 여러 번 그려 질 수 있으므로 측정 값을 재활용하고 시간을 절약 할 수 있습니다.

물론 학술 POV에서 두 가지 방법을 모두 조사해야합니다. 그러나 실용적인 POV에서 대체의 장점을 고려할 때 대체없이 샘플링을 고려하는 이유를 알 수 없습니다.

그러나 나는 통계의 초보자이므로 적어도 특정 유스 케이스의 경우 교체없이 탁월한 선택이 될 수있는 많은 이유가있을 수 있습니다. 제발 나를 혼동하지 마십시오!


3
힌트 : 유한 모집단 수정을 적용한 효과가 무엇인지, 왜 유리한지 고려하십시오. (1) 합계를하는 것은 데이터를 수집하는 것보다 거의 항상 문제와 비용이 적습니다. (2) 개인을 구별 할 수있는 경우 측정을 "재활용"하지 말고 별개의 개인에 대해서만 기본 추론을 수행하십시오.
Scortchi- Monica Monica 복원

솔직히, 나는 당신의 주장을 실제로 이해하지 못합니다. FPC는 측정의 독립성 부족으로 인한 수치 적 결과를 보상합니다. 그러나 이것이 왜 유리한지 모르겠습니다. (1) 이것이 내 질문과 어떤 관련이 있습니까? (2) 왜 "측정하지 않아야"합니까? 교체로 샘플링 할 때 동일한 항목을 두 번 동시에 가져 오는 직접적인 논리적 결과가 아닙니까?
라파엘

답변:


13

@Scortchi의 답변으로 확장. . .

모집단에 5 명의 구성원이 있고 5 명의 표본을 추출 할 예산이 있다고 가정하십시오. 이 모집단의 개인 특성 인 변수 X의 모집단 평균에 관심이 있습니다. 당신은 당신의 방식으로 그것을 할 수 있으며 무작위로 교체 샘플을 보냅니다. 표본 평균의 분산은 V (X) / 5입니다.

반면에 5 명의 개인을 교체하지 않고 샘플링한다고 가정합니다. 그런 다음 표본 평균의 분산은 0입니다. 각 개체를 한 번에 정확히 한 번만 표본 추출 했으므로 "표본 평균"과 "인구 평균"사이에는 차이가 없습니다. 그들은 같은 것입니다.

실제 세계에서는 유한 모집단 수정을 수행해야 할 때마다 더 많은 데이터를 수집하지 않고도 추정기의 분산이 줄어들 기 때문에 기쁨을 위해 뛰어야합니다. 거의 아무것도하지 않습니다. 마술처럼 : 좋은 마술.

수학에서 똑같은 것을 말하십시오 (<에주의를 기울이고 샘플 크기가 1보다 크다고 가정) :

유한 샘플 보정=1<11=1

보정 <1은 보정을 적용하면 분산을 DOWN으로 만드는 것입니다. 왜냐하면 보정에 분산을 곱하여 보정을 적용했기 때문입니다. 분산 DOWN == 양호

수학과 완전히 반대되는 반대 방향으로 움직일 때, 당신이 원하는 것을 생각하십시오. 모집단에 대해 배우고 5 명을 샘플링 할 수 있다면 같은 사람을 5 번 샘플링 할 기회를 얻음으로써 더 많은 것을 배우거나 더 확실하게 배울 것 같습니까? 당신은 5 명의 다른 남자를 샘플링한다 고요?

실제 사례는 당신이 말하는 것과 거의 반대입니다. 대체로 샘플을 채취하지 마십시오 --- 부트 스트래핑과 같은 특별한 일을 할 때만 가능합니다. 이 경우 실제로 추정기를 망치고 "너무 큰"분산을 제공하려고합니다.


"부트 스트래핑"에서는 모집단의 매개 변수를 추정하기 위해 모집단의 매개 변수 (실제로 사용해야 했음) 대신 샘플의 매개 변수를 사용하는 것으로 이해합니다. 추정기를 "조회"하고 "너무 큰"분산에 관심을 갖는 이유는 무엇입니까?
라파엘

1
@ Яaffael 나는 비모수 적 부트 스트랩에 대해 이야기하고 있습니다. 표본을 추출하고 (예 : 크기 100) 교체하여 표본을 다시 샘플링하고 (100 회 부트 스트랩 표본을 100 회 생성) 100을 얻은 다음 관심 추정기를 다시 계산합니다. 표본을 장난감 모집단으로 취급하고 표본에서 표본을 추출하는 것을 시뮬레이션하고 추정량을 계산합니다. 완구 모집단에서 교체없이 표본을 추출한 경우 원래 추정값을 새 추정값 (예 : 분산 = 0)으로 가져 와서 장난감 모집단을 표본에 정확하게 복사합니다. 이를 피하려면 교체 샘플을 사용하십시오.
Bill

5

대체의 샘플링은 대체를 사용한 샘플링과 비교하여 대체하지 않은 샘플링의 경우 일반적으로 추정의 정확도가 높습니다.


2

나는 여기에 대한 답변이 완전히 적절하다고 생각하지 않으며, 귀하의 데이터 양이 매우 적은 제한적인 경우에 대해 논쟁하는 것 같습니다.

충분히 큰 샘플을 사용하면 특히 많은 부트 스트랩 재 샘플 (~ 1000)에서 걱정할 필요가 없습니다. 실제 분포에서 크기가 10,000 인 데이터 집합을 샘플링 하고 교체 횟수를 1,000 번으로 다시 샘플링 한 경우, 내가 얻은 분산 ( 교체 를 수행 하지 않고 얻은 분산과 대조적으로 )은 전혀 무시할 수 있습니다.

더 정확한 답은 다음과 같습니다 . 2 차 통계 의 신뢰도를 추정 할 때는 교체없이 리샘플링이 필수적 입니다. 예를 들어, 부트 스트랩을 사용하여 분산 측정에서 갖는 불확실성을 추정하는 경우. 이러한 양을 대체하여 인발하면 회수 된 분산액을 인위적으로 편향시킬 수있다.

실제 데이터가 포함 된 구체적인 예를 보려면이 백서 https://arxiv.org/abs/1612.02827을 참조하십시오.

10 페이지의 질문에 대해 간략하게 설명합니다.


0

대체와 마찬가지로 실질적으로 교체없이 처리하고 모든 어려움을 제거하는 결과가 있습니다. 대체 계산으로 훨씬 쉽습니다. 따라서 확률이 p 및 q, 성공 및 실패 확률을 포함하는 경우 대체 사례의 경우 대체 사례가없는 경우의 해당 확률은 p ^ aq ^ b를 (Nab) C (Ra)로 대체하여 간단히 얻을 수 있습니다. 임의의 a 및 b, 여기서 N, R은 총 공 수 및 백색 공의 수이다. p는 R / N으로 취급됩니다.

발라 수 브라 마니아 어


누락이 있었다. (Nab) C (Ra) / (NCR)이 올바른 표현입니다. 예를 들어 평균 np는 n (N-1-0) / (R-1) / NCR이됩니다. 그러한 결과를 확인할 수 있습니다.
Krish Balasubramanian
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.