"빅 데이터"에서 올바른 결론을 도출하는 방법은 무엇입니까?


40

"빅 데이터"는 미디어 어디에나 있습니다. KDNuggets는 2012 년의 뜨거운 주제에 대한 설문 조사와 같이 "빅 데이터"가 2012 년에 가장 중요한 것이라고 말합니다 . 그러나 나는 여기에 깊은 우려가 있습니다. 빅 데이터를 사용하면 모든 것이 무엇이든 기뻐하는 것 같습니다 . 그러나 우리는 가설 검정 및 대표 표본 추출과 같은 모든 고전적인 통계 원칙을 위반하지 않습니까?

동일한 데이터 세트에 대한 예측 만하는 한 괜찮습니다. 트위터 데이터를 사용하여 트위터 사용자 행동을 예측한다면 아마 괜찮을 것입니다. 그러나 예를 들어 선거를 예측하기 위해 트위터 데이터를 사용하는 것은 트위터 사용자가 전체 인구의 대표 샘플이 아니라는 사실을 완전히 무시합니다. 또한 대부분의 방법은 실제로 "풀뿌리"분위기와 캠페인을 구별 할 수 없습니다. 트위터는 캠페인으로 가득합니다. 따라서 트위터를 분석 할 때 캠페인과 봇을 측정하는 것만으로도 빨리 끝납니다. (예를 들어 "야후가 미국의 정치 수상자 예측" 참조여론 조사로 가득 차 있으며 "감정 분석이 훨씬 좋습니다". 그들은 "로마 니가 후보 지명에서 우승하고 사우스 캐롤라이나 주에서 우승 할 확률은 90 % 이상"이라고 예측했다 (그는 28 %, 깅 리치에서는이 중 40 %).

다른 빅 데이터가 실패한다는 것을 알고 있습니까? 나는 한 과학자가 150 명 이상의 우정을 유지할 수 없다고 예측 한 것을 기억합니다. 그는 실제로 friendster에서 모자 한도를 발견했습니다 ...

트위터 데이터 또는 실제로 웹에서 수집 된 "빅 데이터"에 관해서는 사람들이 종종 자신의 데이터를 수집하는 방식으로 추가 편견을 도입한다고 생각합니다. 트위터를 가진 사람은 거의 없습니다. 그들은 스파이더에 특정 하위 집합이 있으며 이는 데이터 세트의 또 다른 편견입니다.

데이터를 테스트 세트로 분할하거나 교차 검증을 수행하는 데 큰 도움이되지 않습니다. 다른 세트는 동일한 바이어스를 갖습니다. 그리고 빅 데이터의 경우 정보를 너무 많이 압축하여 지나치게 적합하지 않을 수 있습니다.

전 세계에 약 6 명의 남녀가 있다는 사실을 발견 한 빅 데이터 과학자와 함께이 농담을 들었습니다. "남성, 여성, 오크, 모피, 예, 아니오"라고 생각합니다.

그렇다면 특히 "빅 데이터"데이터 셋 이외의 것을 예측하려고 할 때 어떤 통계적 유효성을 분석으로 다시 가져와야합니까?

답변:


31

당신의 두려움은 잘 세워지고 지각 적입니다. 야후와 다른 여러 회사가 사용자에 대해 무작위 실험을하고 잘 수행하고있다. 그러나 관측 데이터는 어려움이 따릅니다. 표본 크기가 증가함에 따라 문제가 줄어드는 것은 일반적인 오해입니다. 이것은 분산에 해당하지만 n이 증가함에 따라 바이어스는 일정하게 유지됩니다. 치우침이 크면 매우 작은 실제 무작위 표본 또는 무작위 연구는 100,000,000 회 이상의 관측치보다 가치가있을 수 있습니다.


8
빅 데이터는 바이어스 편차 분해가 도움이되지 않는 영역 중 하나 일 수 있습니다. 데이터 품질과 데이터 관리가 더 중요합니다. 우리는 모든 데이터 포인트 또는 특별한 경우를 알기를 기대할 수 없기 때문에 – 그중 너무 많은
확률 론적

24

실험 설계 및 분석에는 편견을 줄이는 데 도움이되는 여러 가지 기술이 있지만 항상 같은 일로 귀결됩니다. 빅 데이터 분석은 다른 데이터 분석과 같은 문제가 있습니다. 가설이 부족하다.

명확한 예는 단계적 변수 선택을 사용한 다중 회귀입니다. 매우 훌륭하지만, 100 개의 변수로 측정 된 통계 법칙에 따르면 각각의 계수가 0과 크게 다른지 여부를 평가하여 이들 중 일부가 중요한 관계 보일 것이라고 합니다. 따라서 데이터 세트에 변수가 많을수록 (의미없는) 관계를 나타내는 두 가지를 찾을 가능성이 높습니다. 데이터 집합이 클수록 작은 혼란 효과로 인해 의미없는 모델이 생성 될 가능성이 높아집니다. 많은 모델을 테스트하면 (그리고 모델이 많을 수있는 10 개의 변수 만 사용하는 경우) 적어도 하나의 중요한 것을 찾을 가능성이 큽니다. 무슨 뜻인가요? 아니.

그러면 어떻게해야합니까? 머리를 써라:

  • 데이터를 수집하기 전에 가설을 공식화하고 그 가설을 테스트하십시오. 통계가 실제로 이야기를 전달할 수있는 유일한 방법입니다.
  • 공변량을 사용하여 일부 테스트를 수행하기 전에 샘플링을 계층화하십시오. 어리석은 예 : 데이터 세트에 남성 1000 명과 여성 100 명인 경우 평균 모집단에 대해 이야기하려면 각각 50 명을 무작위로 선택하십시오. 실제로 빅 데이터가 유용한 경우가 있습니다. 샘플링 할 수있는 것 이상이 있습니다.
  • 테스트 모집단을 철저히 설명하여 결론을 도출 할 모집단을 명확히하십시오.
  • 당신이 답사의 목적을 위해 큰 데이터 세트를 사용하는 경우에이 탐사하는 동안 당신이 올 가설을 테스트 다른 데이터 세트, 당신이 수집 무엇의 단지 일부. 필요한 모든 예방 조치를 사용하여 다시 테스트하십시오.

이것들은 모두 명백하고 잘 알려져 있습니다. Heck은 이미 1984 년 Rosenbaum과 Rubin이 성향 스코어를 사용하여 관찰 연구에서 편향을 줄이는 방법을 설명했으며, 이것이 대부분의 빅 데이터 세트 인 관찰 데이터입니다. Feng et al .의 최근 연구 에서 Mahalanobis 거리의 사용 또한 옹호된다. 사실, 나의 통계적 영웅 중 하나 인 Cochran은 이미 1973 년에 그 문제에 대한 리뷰 를 썼습니다 ! 또는 1979 년에 이미 다변량 일치 샘플링 및 회귀 수정 을 도입 한 Rubin은 어떻 습니까? 오래된 출판물은 통계와 같은 분야에서 심각하게 과소 평가되고 너무 자주 무시됩니다.

이러한 모든 기술에는 장단점이 있으며 바이어스를 줄이는 것이 바이어스를 제거하는 것과 같지 않다는 것을 이해해야합니다. 그러나 당신이 알고 있다면 :

  • 테스트하고 싶은 것
  • 어떻게 지내니

빅 데이터는 가짜 결과를 낳을 구실이 아닙니다.


@DW의 (정확한) 말이 잘못된 맥락에서 '과적 합'이라는 용어를 사용했다고 지적한 후에 편집했습니다.


12
"데이터 세트가 클수록 무의미한 과적 합의 가능성이 높아집니다."-실제로는 그 반대입니다. 가능한 모델 세트가 클수록 과적 합의 가능성이 커집니다 (다른 모든 것 같음). 데이터 세트가 클수록 과적 합 가능성이 줄어 듭니다 (다른 모든 경우 동일).
DW

@DW 어떻게 그렇게? 실제로 시뮬레이션에서 절대 독립성이있는 경우 작고 큰 데이터 세트가있는 중요한 모델이있을 가능성이 높습니다 (간단한 시뮬레이션이이를 보여줍니다). 아아, 나는 독립이 완벽한 데이터 세트를 아직 만나지 못했습니다. 예를 들어 매우 혼란스러운 효과가있는 순간, 큰 데이터 세트는 작은 데이터 세트보다 의미없는 결과를 얻을 가능성이 높습니다.
Joris Meys

좋은 대답-중요한 효과를 찾는 것에 대한 귀하의 의견은 모델 선택의 "입출"방법보다 수축 방법에 대한 합리적인 근거를 제공합니다.
확률

10
@DW는 과적 합에 대한 진술을하고 있으며, 특히 데이터 세트가 클수록 데이터의 하위 집합에 대한 교차 검증에 더 많은 기회를 줄 가능성이 높습니다. Joris Meys는 통계적 유의성에 대해 진술하고 있습니다. 또한 맞습니다. 그러나 대규모 데이터 세트에서 통계적 유의성은 무의미합니다. 거의 모든 것이 "통계적으로 유의"하기 때문에 효과 크기가 중요합니다.
zbicyclist 2012

1
@zbicyclist 매우 정확한 관찰. DW를 잘못 해석했으며 잘못된 맥락에서 과적 합이라는 용어를 사용했습니다. 나는 정정되었다.
Joris Meys 2019
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.