대규모의 전체 데이터 세트에서 대표적인 샘플 세트를 만드는 방법은 무엇입니까?


10

전체 모집단을 나타내는 표본 집합을 생성하는 통계적 기술은 무엇입니까 (알려진 신뢰 수준)?

또한,

  • 샘플이 전체 데이터 세트에 맞는지 확인하는 방법은 무엇입니까?
  • 전체 데이터 세트를 구문 분석하지 않고도 가능합니까 (수십억 개의 레코드가 될 수 있음)?

답변:


8

전체 데이터 세트를 구문 분석하지 않으려면 계층화 된 샘플링을 사용할 수 없으므로 큰 간단한 임의 샘플 을 사용하는 것이 좋습니다 . 복용하는에 의해 무작위로 샘플을, 당신은 샘플이 평균적으로 전체 데이터 세트의 대표 될 수 있도록, 그러한 표준 오차와 신뢰 구간 등 정밀 표준 통계 조치 샘플 추정 가능성이 값이 얼마나 멀리 인구 떨어져 당신을 말할 것이다 따라서 실제로 무작위로 표본 추출 된 일부 우려 사항이없는 한 표본이 모집단을 대표하는지 검증 할 필요가 없습니다.

간단한 무작위 표본의 크기는 얼마입니까? 표본이 클수록 추정치가 더 정확 해집니다. 이미 데이터를 가지고 있기 때문에 기존의 샘플 크기 계산은 실제로 적용 할 수 없습니다. 컴퓨팅에 유용한만큼의 데이터 세트를 사용할 수도 있습니다. 계산 시간을 문제로 만드는 복잡한 분석을 계획하지 않는 한 간단한 접근 방법은 페이징 을 유발하지 않고 간단한 임의 샘플을 PC에서 분석 할 수있는만큼 크게 만드는 것입니다.또는 다른 메모리 문제. 데이터 집합의 크기를 컴퓨터 RAM의 절반 이하로 제한하여 데이터를 조작하고 OS를위한 공간을 남겨 두거나 편집기 및 웹 브라우저와 같은 다른 작은 응용 프로그램을위한 공간을 남겨 두는 한 가지 규칙 ). 또 다른 제한 사항은 32 비트 Windows 운영 체제에서 단일 응용 프로그램의 주소 공간이 바이트 = 2.1GB 보다 클 수 없으므로 32 비트 Windows를 사용하는 경우 1GB가 데이터 세트의 크기에 대한 합리적인 제한.231

그런 다음 각 관측치에 대한 변수 수와 각 변수가 차지하는 바이트 수를 고려하여 샘플링 할 수있는 관측치 수를 계산하는 간단한 산술 문제입니다.


답변 주셔서 감사합니다. 계층화 된 샘플링을 찾고 있다고 생각합니다. (나는 전체 집합을 파싱하지 않고 대표 세트를 만들기 위해 계산하기에 비용이 많이 들지 않는 알고리즘을 찾고있었습니다. :-))
Mohit Ranka

2

두 번째 질문에서 "데이터는 어떻게 입력 되었습니까?" 데이터가 상대적으로 임의의 방식으로 입력되었다고 생각하는 경우 (예 : 데이터를 사용한 최종 분석에 영향을 줄 수있는 관찰의 관찰 가능하거나 관찰 할 수없는 특성과 무관) 처음 5 백만을 고려할 수 있습니다. 전체 샘플을 대표하여이 그룹에서 무작위로 선택하여 작업 할 수있는 샘플을 작성하는 것이 편합니다.

두 가지 실험적 분포를 비교하기 위해 qq-plots와 두 표본 Kolmogorov–Smirnov 비모수 테스트를 사용하여 분포의 차이를 확인할 수 있습니다 (예 : http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80 % 93Smirnov_test ). 이 경우 "전체"데이터 세트에서 해당 변수의 분포와 비교하여 샘플의 각 변수 분포를 테스트합니다 (다시 말하면 전체 샘플에서 5 백만 개의 관측치가 될 수 있음). KS 검정은 저전력으로 인해 어려움을 겪을 수 있습니다 (즉, 그룹 간 차이가 없다는 귀무 가설을 기각하기 어렵습니다).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.