'빅 데이터'시점에서 샘플링이 관련이 있습니까?


54

아니면 더 "그렇게 될까"? 빅 데이터 는 통계와 관련 지식을 더욱 중요하게하지만 샘플링 이론을 수행하는 것으로 보입니다.

나는 '빅 데이터'에 대한이 과대 광고를 보았고 "왜"가 모든 것을 분석하고 싶은지 궁금해 할 수 없습니다 . "샘플링 이론"을 설계 / 구현 / 발명 / 발견 할 이유가 없었습니까? 데이터 세트의 전체 '인구'를 분석 할 필요가 없습니다. 당신이 할 수 있다고해서 반드시해야한다는 의미는 아닙니다. (강건한 것은 특권이지만 남용해서는 안됩니다.)

내 질문은 이것입니다 : 전체 데이터 세트를 분석하는 것이 통계적으로 관련이 있습니까? 샘플링을 수행 한 경우 오류를 최소화하는 것이 가장 좋습니다. 그러나 그 오류를 최소화하는 비용은 실제로 가치가 있습니까? "정보의 가치"는 대규모 병렬 컴퓨터에서 빅 데이터를 분석하는 데 드는 노력, 시간 비용 등의 가치가 있습니까?

전체 모집단을 분석하더라도 결과는 여전히 옳을 확률이 높은 추측 일 것입니다. 아마도 표본 추출보다 조금 더 높을 수 있습니다 (또는 훨씬 더 많을까요?) 모집단 분석과 표본 분석에서 얻은 통찰력이 크게 다릅니 까?

아니면 "시간이 바뀌었다"고 받아 들여야합니까? 활동으로서의 샘플링은 충분한 계산력이 주어지면 덜 중요해질 수 있습니다. :)

참고 : 토론을 시작하지는 않지만 빅 데이터가 수행하는 이유 (예 : 모든 것을 분석)를 이해하고 샘플링 이론을 무시하는 (또는 그렇지 않은) 답변을 찾고 있습니다.


1
stats.stackexchange.com/q/22502/7828- 빅 데이터에서 유효한 결론을 도출하는 방법 도 참조하십시오 .
Anony-Mousse

1
(+ 1 년 전) 나는 항상 당신의 통찰력있는 질문을 읽는 것을 좋아합니다. 그들은 이 사이트 의 실제 자산입니다.
추기경

@ cardinal-귀하의 의견에 진심으로 감사드립니다. 당신에게서 많은 것을 의미합니다.
PhD

답변:


29

한마디로 그렇습니다 . 나는 "빅 데이터"세계 내에서와없이 "샘플링이 적절한 상황이 여전히 분명하다고 생각하지만, 빅 데이터의 특성은 샘플링에 대한 접근 방식을 확실히 바꿀 것이며, 우리는 거의 완전한 기본 표현 인 더 많은 데이터 세트를 사용할 것이다" 인구.

샘플링시 : 상황에 따라 샘플링이 적절한 지 여부는 거의 항상 명확합니다. 샘플링은 본질적으로 유익한 활동이 아닙니다. 데이터 수집 구현 비용을 절충해야하기 때문에 우리가하는 일입니다. 우리는 인구를 특성화하려고 노력하고 있으며 인구에 대한 데이터를 수집하고 분석하기위한 적절한 방법을 선택해야합니다. 데이터 수집 또는 데이터 처리 방법의 한계 비용이 높은 경우 샘플링이 의미가 있습니다. 무작위 표본 추출 오류를 약간 개선하는 것보다 무응답 편향과 같은 문제를 해결하는 것이 더 낫기 때문에이 경우 인구의 100 %에 도달하는 것은 리소스를 잘 사용하지 않습니다.

빅 데이터는 어떻게 다릅니 까? "빅 데이터"는 오랜 세월 동안 겪었던 것과 같은 많은 질문을 해결하지만 "새로운"기능은 데이터 수집이 기존의 컴퓨터 중재 프로세스에서 발생하므로 데이터 수집의 한계 비용이 본질적으로 0이라는 것입니다. 이는 샘플링에 대한 필요성을 크게 줄입니다.

우리는 언제 샘플링을 사용할 것입니까? "큰 데이터"모집단이 문제에 적합한 모집단 인 경우 몇 가지 경우에만 샘플링을 사용합니다. 별도의 실험 그룹을 실행해야하거나 대량의 데이터가 너무 커서 캡처 및 처리 할 수없는 경우 (많은 경우) 오늘날 우리는 수백만 행의 데이터를 쉽게 처리 할 수 ​​있으므로 여기서 경계가 점점 더 넓어지고 있습니다. 귀하의 질문을 기각하는 것처럼 보이면 수집 또는 처리 단계에서 데이터의 양이 문제가되는 상황이 거의 발생하지 않았기 때문일 것입니다.

나에게 어려운 상황은 "빅 데이터"모집단이 목표 모집단을 완벽하게 나타내지 않기 때문에 오렌지에 대한 사과가 더 많습니다. 지역 교통 플래너라고 말하면 Google에서 Android GPS 탐색 로그에 액세스 할 수 있도록 제안했습니다. 데이터 세트가 사용하기에 흥미롭지는 않지만 인구는 저소득층, 대중 교통 사용자 및 노인에 대해 체계적으로 편향되어있을 것입니다. 그러한 상황에서, 전통적인 여행 일기는 임의의 가정 표본으로 보내졌지만, 더 비싸고 수는 적지 만 여전히 우수한 데이터 수집 방법이 될 수 있습니다. 그러나 이것은 단순히 "샘플링 vs. 빅 데이터"의 문제가 아닙니다.


22

모바일 장치 등에서 많은 빅 데이터가 생성 될 수 있지만 사용 가능한 데이터는 거의 없습니다. foursquare를 사용하여 도시 여행 패턴을 예측하려는 경우 예상 플로우에서 차수가 줄어 듭니다. 더 나쁜 것은, 이러한 흐름을 과대 평가하거나 과소 평가하는지 알 수 없습니다. 열광적 인 4 스퀘어 사용자의 도시 여행 패턴을 미묘하게 정확하게 파악할 수 있지만 모든 사람이 (1) 작동하는 스마트 폰을 유지하고, (2) 4 스퀘어 앱을 항상 실행하고, (3) 그들이 10 분 이상 머무르는 곳이라면 (즉, 전자 인구 조사를 받으십시오. 자유 주의자들이 귀하에 관한 모든 것을 알고 구글과 페이스 북에 대해 불만을 제기하게하십시오), 데이터에는 알려지지 않은 편견이 포함되며, 전자 듀이는 실제 단어를 계속 물리 칠 것입니다 트루먼 (클릭 가능) :


(출처 : whatisasurvey.info )

어쨌든, 나는이 역사가 반복 될 것이라고 기대할 것이며, 빅 데이터로부터 생성 된 일부 큰 "맥주 + 기저귀" 예측은보다 엄격한 샘플링 접근법을 사용하는 연구원들에 의해 뒤집힐 것입니다. 확률 기반 설문 조사는 응답 속도가 떨어지더라도 정확한 상태를 유지한다는 것은 놀라운 일 입니다.


1
(+1) 그러나 틀에 박힌 4 평방 사용자는 편집증 의 대립이 아닙니다 . ;-)
추기경

1
네 .. 아마도 나쁜 용어 일 것입니다. 그것을 광경으로 바꾸자!
StasK

2
빅 데이터는 범인이 아닙니다. 그것이 사용되는 방법입니다. 정보가 있고 적절하게 적용되면 매우 도움이 될 수 있습니다. 데이터 마이닝이 모두 나쁜 것은 아닙니다.
Michael Chernick

교통 정보에 빅 데이터를 사용하는 것에 대한 좋은 지적. Google 및 Apple과 같은 회사는 이미이 작업을 수행하고 있기 때문에 일부 고객에게는 (현재 사용 가능한) 빅 데이터가 부족한 곳을 보여주는 좋은 예라고 생각합니다.
조나단

@ 마이클, 물론입니다. 데이터는 비용이 저렴하지만 유용한 정보를 얻는 방법은 떨어지지 않습니다. 유용한 정보를 얻기 위해 더 많은 데이터를 조사해야하기 때문에 어떤 것이라도 올라가고 있습니다.
StasK

21

하나는 통계적 추론의 기술을 적용 할 때마다,에 관해서는 명확하게하는 것이 중요 인구 한 결론을 도출하는 것을 목표로하는에 대해. 수집 된 데이터가 매우 크더라도 여전히 인구의 작은 부분에만 관련 될 수 있으며 전체를 대표하지 않을 수도 있습니다.

예를 들어 특정 산업을 운영하는 회사가 특정 국가의 고객에 대해 '빅 데이터'를 수집했다고 가정합니다. 해당 데이터를 사용하여 해당 국가의 기존 고객에 대한 결론을 도출하려는 경우 샘플링이 그다지 적합하지 않을 수 있습니다. 그러나 기존 고객이나 다른 국가의 고객뿐만 아니라 더 많은 인구에 대한 결론을 내리고 싶다면 데이터가 수집 된 고객이 어느 정도 대표, 아마도 수입, 연령 등을 고려하는 것이 중요해집니다. , 더 많은 인구의 성별, 교육 등.

시간 차원도 고려해야합니다. 통계적 추론을 사용하여 예측을 지원하는 것이 목표라면, 인구는 미래로 확장되는 것으로 이해되어야합니다. 그렇다면, 앞으로 얻을 수있는 데이터를 대표하는 환경에서 데이터 세트가 큰지 여부를 다시 고려해야합니다.


우리 사이트 아담에 오신 것을 환영합니다! (정기적으로 체크인하면 기하학수 이론 에 대한 관심을 행사할 수있는 기회도 가끔 있습니다. :-)
whuber

인구를 고려해야 할 필요성에 대한 좋은 지적! 이것이 사람들이 빅 데이터에 대해 게으른 방법 중 하나입니다.
조나단

"수집 된 데이터가 매우 큰 경우에도 여전히 인구의 작은 부분에만 관련 될 수 있으며 전체를 대표하지 않을 수도 있습니다." 이 문장만으로도 많은 질문에 대답 할 수 있다고 생각합니다.
Bemipefe

13

내가 본 빅 데이터 / ML 열풍에서 보았 듯이, 샘플링과 샘플이 추출되는 인구에 대한 생각은 그 어느 때보 다 중요하지만 훨씬 덜 생각합니다.

저는 스탠포드 ML 클래스를 "감사"하고 있으며, 지금까지 인구 추론에 대한 언급으로 회귀 및 신경 네트워크를 다루었습니다. 이 클래스는 6 명의 인물로 구성되었으므로 이제 샘플 아이디어에 대한 개념없이 데이터를 어떻게 적합시킬 것인지를 알고있는 수많은 사람들이 있습니다.


3
완전히 동의 해. 머신 러닝 (실습 자와 프로그래머 대부분), 빅 데이터 및 "데이터 과학"에 대한 현재의 열풍을 관찰 할 때, 사람들이 샘플링, 추론, 통계적 추론 이해 및 의미를 완전히 무시하고 맹목적으로 적용하기 위해 희생하는 것이 엄청나게 일반적입니다 알고리즘은 엉덩이입니다. 여기 교차 질문에 대한 질문과 답변이 있음을 알 수 있습니다. 그래서 나는 그것이 곧 쓸모 없거나 통계 인식론을 빌려서 통계의 지점이되는 과대 광고라고 생각하는 이유입니다 (어쨌든 그렇게 생각합니다).
Momo

2
ML 클래스가 내가 얼마 전에 감사 한 것과 유사하다면 Hoeffding 불평등 직전에 훈련 데이터가 모집단에서 완벽하게 무작위로 추출된다는 기술적 가정이 미뤄졌습니다. 불행히도, 적어도 내 경험과 코스 전체의 기술 적용 사례에서는 거의 그렇지 않습니다. "큰 데이터"를 사용하는 경우에는 여전히 그렇습니다.
Douglas Zare

12

예, 샘플링은 관련이 있으며 관련성이 유지됩니다. 결론은 통계적 추정치의 정확성은 일반적으로 일반화하려는 모집단이 아니라 표본 크기의 함수라는 것입니다. 따라서 1,000 명의 응답자 표본에서 계산 된 평균 또는 평균 비율은 모집단의 규모 (또는 "얼마나 큰" 빅 데이터”)입니다.

다음과 같이 말한 경우 : 관련이 있고 언급해야 할 특정 문제와 과제가 있습니다.

  1. 좋은 확률 샘플을 얻는 것이 항상 쉬운 것은 아닙니다. 이론적으로, 우리가 일반화하고자하는 집단 (추론하고자하는)의 모든 개인은 선택 될 확률이 알려져 있어야합니다. 이상적으로는 확률이 같아야합니다 (동일 확률 표본 또는 EPSEM – 동일한 선택 가능성). 이는 중요한 고려 사항이며 샘플링 프로세스가 일반화하려는 모집단 구성원에게 선택 확률을 할당하는 방법을 명확하게 이해해야합니다. 예를 들어 트위터 계정에서 파생 된 개인을 포함하여 전체 인구의 전체 정서에 대한 정확한 견적을 Twitter에서 제공 할 수 있습니까?
  2. 빅 데이터에는 매우 복잡한 세부 정보와 정보가 포함될 수 있습니다. 달리 말하면, 문제는 샘플링이 아니라 (마이크로) 세분화로, 관련된 작은 관찰 하위 집합에 대한 올바른 세부 정보를 가져옵니다. 여기서의 과제는 샘플링이 아니라 빅 데이터의 구체적인 계층화와 세분화를 식별하여 가치있는 통찰력으로 전환 할 수있는 가장 정확한 실행 가능한 정보를 제공하는 것입니다.
  3. 다른 일반적인 의견 측정 규칙은 비 샘플링 오류 및 바이어스가 일반적으로 샘플링 오류 및 바이어스보다 훨씬 크다는 것입니다. 의견을 표현하는 응답자에 대한 100 개의 gazillion 레코드를 처리한다고해서 1000 명의 사람 하위 표본에 대한 데이터 만있는 경우, 특히 각 설문에 대한 질문이 잘 작성되지 않고 편향이 유발 된 경우 결과가 더 유용하지는 않습니다.
  4. 때로는 샘플링이 필요한 경우가 있습니다. 예를 들어, 모든 데이터에서 예측 모델을 작성하는 경우 어떻게 검증합니까? 다른 모델의 정확도를 어떻게 비교합니까? "큰 데이터"(매우 큰 데이터 리포지토리)가있는 경우 다른 샘플에 대해 여러 모델 및 모델링 시나리오를 구축하고 다른 독립 샘플에서이를 검증 (시도) 할 수 있습니다. 모든 데이터에 대해 하나의 모델을 구축해야한다면 어떻게 검증해야합니까?

여기에서 '빅 데이터 혁명'을 확인할 수 있습니다.


1
우리 사이트 Kyra에 오신 것을 환영합니다!
whuber

3

많은 빅 데이터 방법은 실제로 샘플링을 중심으로 설계되었습니다.

질문은 다음 줄에 더 있어야합니다.

빅 데이터와 함께 체계적인 샘플링을 사용해야 합니까?

많은 "빅 데이터"는 여전히 신선하고 때로는 순진합니다. 예를 들어 K- 평균은 사소하게 병렬화 될 수 있으므로 "빅 데이터"에서 작동합니다 (결과에 대해서는 언급하지 않겠지 만 결과는 의미가 없으며 샘플에서 얻은 것과 크게 다르지 않습니다). 내가 아는 한 Mahout에서 k- 평균 구현이하는 것입니다.

그러나 연구는 순진 병렬화 (여전히 많은 양의 반복이 필요할 수 있음)를 넘어서고 고정 된 반복 횟수로 K- 평균을 수행하려고합니다 . 이에 대한 예 :

  • MapReduce를 사용한 빠른 클러스터링
    Ene, A. 및 Im, S. 및 Moseley, B.
    2011 년 지식 발견 및 데이터 마이닝에 관한 제 17 회 ACM SIGKDD 국제 컨퍼런스 진행

그리고 그들의 접근 방식이 샘플링에 크게 의존 하는 것을 추측하십시오 .

다음 예 : 의사 결정 숲 . 기본적으로 데이터 세트의 여러 샘플에 대해 각각 의사 결정 트리를 작성하십시오. 다시 간단하게 병렬화 할 수 있습니다. 각 샘플을 별도의 기계에 놓습니다. 그리고 다시, 이것은 샘플링 기반 접근법입니다.

따라서 샘플링은 빅 데이터 접근의 핵심 요소 중 하나입니다!

그리고 이것에는 아무 문제가 없습니다.


2

교차 검증은 ML / 빅 데이터에서 매우 중요한 서브 샘플링의 특정 예입니다. 더 일반적으로, 다른 사람들이 언급했듯이 빅 데이터는 여전히 일반적으로 인구의 표본입니다.

그러나 OP는 관찰 데이터와 대조 실험에 적용되는 샘플링을 구체적으로 언급 할 수 있다고 생각합니다. 일반적으로 빅 데이터는 후자의 것으로 생각되지만 적어도 예외는 있습니다. 전자 상거래 및 소셜 네트워크 설정에서 무작위 시험, A / B 테스트 및 다중 무기 도둑을 "빅 데이터 설정에서의 샘플링"의 예로 생각합니다.


1

검색, 광고, Amazon, Netflix와 같은 추천 시스템 인 빅 데이터가 인기를 얻고있는 영역에는 전체 데이터 세트를 탐색하는 데 큰 동기가 있습니다.

이 시스템의 목표는 인구의 모든 단일 구성원에게 권장 사항 / 제안을 맞추는 것입니다. 또한 연구되는 속성의 수는 엄청납니다. 평균적인 웹 분석 시스템은 클릭률, 페이지의 "핫 영역"의 "열 추적", 소셜 상호 작용 등을 측정하고 사전 결정된 목표의 큰 세트와 비교할 수 있습니다.

더 중요한 것은, 빅 데이터가 현재 어디에나있는 대부분의 장소는 "온라인"데이터 스트림입니다. 즉 데이터가 지속적으로 추가 / 업데이트되고 있습니다. 고유 한 편견없이 이러한 모든 속성을 다루고 여전히 유망한 결과를 제공하는 더 나은 마진을 얻는 샘플링 체계를 개발하는 것은 어려운 일입니다.

샘플링은 여전히 ​​설문 조사, 의료 시험, A / B 테스트, 품질 보증과 관련이 있습니다.

간단히 말해서, 연구 할 모집단이 매우 커서 모집단의 거시적 특성에 관심이있는 경우 샘플링이 매우 유용합니다. 시스템의 미세한 특성을 활용하려면 100 % 검사 (빅 데이터)가 필요합니다

도움이 되었기를 바랍니다 :)


그들이 가지고있는 데이터를 넘어서서 아직 가지고 있지 않은 데이터로 일반화하기를 원하지 않는다는 요점은 무엇입니까? 또는 표본이 너무 크다고 생각하여 이러한 문제에 대해 걱정할 필요가 없습니까? 또는 기본 매개 변수가 시간이 지남에 따라 변경 될 것이므로 새로운 데이터가 유입됨에 따라 계속 업데이트되는 한 중요하지 않습니까?
gung-Monica Monica 복원

@ gung 문제는 샘플의 크기가 아니라 많은 수의 속성을 가진 데이터 세트에 대해 편향되지 않은 샘플을 생성하는 문제입니다. 그리고 일반화는 일반적으로 데이터 세트의 일부에 대해 학습 된 기계 학습 알고리즘에 의해 수행됩니다. 온라인 데이터 스트림이 지속적으로 제공되므로 배치 업데이트를 사용하여 매개 변수를 변경할 수 있으므로 2 차 샘플링 문제가 발생합니다.
rrampage
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.