아니면 더 "그렇게 될까"? 빅 데이터 는 통계와 관련 지식을 더욱 중요하게하지만 샘플링 이론을 수행하는 것으로 보입니다.
나는 '빅 데이터'에 대한이 과대 광고를 보았고 "왜"가 모든 것을 분석하고 싶은지 궁금해 할 수 없습니다 . "샘플링 이론"을 설계 / 구현 / 발명 / 발견 할 이유가 없었습니까? 데이터 세트의 전체 '인구'를 분석 할 필요가 없습니다. 당신이 할 수 있다고해서 반드시해야한다는 의미는 아닙니다. (강건한 것은 특권이지만 남용해서는 안됩니다.)
내 질문은 이것입니다 : 전체 데이터 세트를 분석하는 것이 통계적으로 관련이 있습니까? 샘플링을 수행 한 경우 오류를 최소화하는 것이 가장 좋습니다. 그러나 그 오류를 최소화하는 비용은 실제로 가치가 있습니까? "정보의 가치"는 대규모 병렬 컴퓨터에서 빅 데이터를 분석하는 데 드는 노력, 시간 비용 등의 가치가 있습니까?
전체 모집단을 분석하더라도 결과는 여전히 옳을 확률이 높은 추측 일 것입니다. 아마도 표본 추출보다 조금 더 높을 수 있습니다 (또는 훨씬 더 많을까요?) 모집단 분석과 표본 분석에서 얻은 통찰력이 크게 다릅니 까?
아니면 "시간이 바뀌었다"고 받아 들여야합니까? 활동으로서의 샘플링은 충분한 계산력이 주어지면 덜 중요해질 수 있습니다. :)
참고 : 토론을 시작하지는 않지만 빅 데이터가 수행하는 이유 (예 : 모든 것을 분석)를 이해하고 샘플링 이론을 무시하는 (또는 그렇지 않은) 답변을 찾고 있습니다.