"빅 데이터"는 미디어 어디에나 있습니다. KDNuggets는 2012 년의 뜨거운 주제에 대한 설문 조사와 같이 "빅 데이터"가 2012 년에 가장 중요한 것이라고 말합니다 . 그러나 나는 여기에 깊은 우려가 있습니다. 빅 데이터를 사용하면 모든 것이 무엇이든 기뻐하는 것 같습니다 . 그러나 우리는 가설 검정 및 대표 표본 추출과 같은 모든 고전적인 통계 원칙을 위반하지 않습니까?
동일한 데이터 세트에 대한 예측 만하는 한 괜찮습니다. 트위터 데이터를 사용하여 트위터 사용자 행동을 예측한다면 아마 괜찮을 것입니다. 그러나 예를 들어 선거를 예측하기 위해 트위터 데이터를 사용하는 것은 트위터 사용자가 전체 인구의 대표 샘플이 아니라는 사실을 완전히 무시합니다. 또한 대부분의 방법은 실제로 "풀뿌리"분위기와 캠페인을 구별 할 수 없습니다. 트위터는 캠페인으로 가득합니다. 따라서 트위터를 분석 할 때 캠페인과 봇을 측정하는 것만으로도 빨리 끝납니다. (예를 들어 "야후가 미국의 정치 수상자 예측" 참조여론 조사로 가득 차 있으며 "감정 분석이 훨씬 좋습니다". 그들은 "로마 니가 후보 지명에서 우승하고 사우스 캐롤라이나 주에서 우승 할 확률은 90 % 이상"이라고 예측했다 (그는 28 %, 깅 리치에서는이 중 40 %).
다른 빅 데이터가 실패한다는 것을 알고 있습니까? 나는 한 과학자가 150 명 이상의 우정을 유지할 수 없다고 예측 한 것을 기억합니다. 그는 실제로 friendster에서 모자 한도를 발견했습니다 ...
트위터 데이터 또는 실제로 웹에서 수집 된 "빅 데이터"에 관해서는 사람들이 종종 자신의 데이터를 수집하는 방식으로 추가 편견을 도입한다고 생각합니다. 트위터를 가진 사람은 거의 없습니다. 그들은 스파이더에 특정 하위 집합이 있으며 이는 데이터 세트의 또 다른 편견입니다.
데이터를 테스트 세트로 분할하거나 교차 검증을 수행하는 데 큰 도움이되지 않습니다. 다른 세트는 동일한 바이어스를 갖습니다. 그리고 빅 데이터의 경우 정보를 너무 많이 압축하여 지나치게 적합하지 않을 수 있습니다.
전 세계에 약 6 명의 남녀가 있다는 사실을 발견 한 빅 데이터 과학자와 함께이 농담을 들었습니다. "남성, 여성, 오크, 모피, 예, 아니오"라고 생각합니다.
그렇다면 특히 "빅 데이터"데이터 셋 이외의 것을 예측하려고 할 때 어떤 통계적 유효성을 분석으로 다시 가져와야합니까?