빅 데이터 란 정확히 무엇입니까?


44

나는 여러 차례 질문을 받았다.

빅 데이터 란?

학생들과 친척 모두 통계와 ML에 대한 화제가되고 있습니다.

CV-post를 찾았 습니다 . 그리고 나는 거기에 유일한 대답에 동의한다고 생각합니다.

위키 백과 페이지는 또한 몇 가지 의견이 있지만 난 정말이 모든에 동의하면 나는 확실하지 않다.

편집 : (나는 Wikipedia 페이지가 이것을 다루는 방법과 아래 언급 한 패러다임을 설명하는 데 부족하다고 생각합니다 .)

나는 최근 Emmanuel Candès 의 강의에 참석 하여 Big-Data 패러다임을 소개했습니다.

먼저 데이터 수집 나중에 질문

이것은 가설을 기반으로 한 연구와의 주요 차이점입니다. 여기서 가설을 공식화 한 다음 데이터를 수집하여 이에 대해 이야기합니다.

그는 데이터 스누핑에 의해 생성 된 가설의 신뢰성을 정량화하는 문제에 많은 관심을 기울였습니다. 나는 그의 강의의 꺼내서 중요한 것은 우리가 정말 제어하기 시작하는 데 필요한 것이 었습니다 FDR을 그가 제시 스킨 냄새 그렇게 할 방법을.

CV는 Big-Data가 무엇이고 정의가 무엇인지에 대해 질문을해야한다고 생각합니다. 나는 너무 많은 다른 "정의들" 이 있다고 생각하는데, 그것이 무엇인지에 대한 일반적인 합의가 없다면, 그것이 무엇인지 실제로 이해하거나 다른 사람들에게 설명하기가 어렵다.

나는 느낌 "정의 / 패러다임 / 설명" 당신의 생각은 무엇인가, Candès에 의해 제공 내가 동의 가장 가까운 일이?

EDIT2 : 대답은 데이터 자체에 대한 설명 이상의 것을 제공해야한다고 생각합니다. 데이터 / 방법 / 패러다임의 조합이어야합니다.

EDIT3는 : 나는 느낌 이 인터뷰 마이클 조던과 함께뿐만 아니라 테이블에 무언가를 추가 할 수 있습니다.

EDIT4 : 나는 가장 높은 투표 답변을 올바른 답변으로 선택하기로 결정했습니다. 모든 답변이 토론에 무언가를 추가한다고 생각하지만 개인적으로 이것이 가설을 생성하고 데이터로 작업하는 방법에 대한 패러다임의 문제라고 생각합니다. 이 질문이 Big-Data가 무엇인지 찾는 사람들에게 참고 자료로 사용되기를 바랍니다. FDR의 다중 비교 문제와 제어를 더욱 강조하기 위해 Wikipedia 페이지가 변경되기를 바랍니다.


55
"빅 데이터는 십대 섹스와 같습니다. 모든 사람들이 그것에 대해 이야기하고, 아무도 그것을 어떻게해야할지 아무도 모릅니다. 다른 사람들이 그 일을하고 있다고 생각하기 때문에 모든 사람들이 그렇게하고 있다고 주장합니다." Simon Matthews
Alexander Lutsenko

4
이 인용문은 더 이상 유효하지 않습니다. 사람들은 최근에 많은 놀라운 작품을 만들고 있습니다. Kaggle의 경쟁을 살펴보면 회사는 비즈니스를 개선하고 많은 돈을 쓰지 않고 많은 돈을 벌고 있습니다. 빅 데이터의 적용에 대한 다른 예는 여기에서 찾을 수 있습니다 : linkedin.com/pulse/…
Metariat

5
@XuanQuangDO에 동의합니다. 이 인용문을 진지하게 받아들이지 마십시오.
Alexander Lutsenko

6
@XuanQuangDO : 음, 나는 확신 일부 청소년들이 특별한 섹스를하고 있지만 그것은뿐만 아니라 주위 멍청이 무능이 많이있다는 사실을 변경하거나 잘못하지 않는 사람들을 것이다 무자비하게 모의 ;-)
스티브 Jessop

답변:


54

저는 RStudio 명성의 Hadley Wickham 박사의 강의에 참석 한 것을 기쁘게 생각했습니다. 그는 그것을 정의했다

  • 빅 데이터 : 한 컴퓨터의 메모리에 맞지 않음 :> 1TB
  • 중간 데이터 : 서버의 메모리에 적합 : 10GB-1TB
  • 작은 데이터 : 노트북의 메모리에 적합 : 10GB 미만

Hadley는 또한 대부분의 데이터는 최소한 다루기 쉬운 문제로 줄일 수 있으며, 실제로는 소량의 데이터가 실제 빅 데이터라고 믿고 있습니다. 그는 이것을 "빅 데이터 신기루"로 표시합니다.

  • 서브 셋팅 / 샘플링 / 요약으로 90 %의 중소 데이터 문제로 줄일 수 있습니다
  • 9 % 매우 적은 수의 작은 데이터 문제로 줄일 수 있습니다
  • 1 %는 엄청나게 크다

슬라이드는 여기 에서 찾을 수 있습니다 .


2
@ GuðmundurEinarsson, 제안 해 주셔서 감사합니다.
Chris C

5
명확한 한계가 있다고 생각하지는 않지만이 게시물은 매우 통찰력이 있다고 생각합니다. SW 회사에서 일할 때 " 빅 데이터 솔루션 "을 찾고있는 많은 고객과 교류했습니다 . 실제로 그들은 16GB SODIMM을 놓쳤다.
usεr11852는 Reinstate Monic이

2
오늘날 1TB SSD를 사용하면 비 휘발성 스토리지는 휘발성 스토리지와 속도가 그리 멀지 않습니다. 빅 데이터가 1TB 이상, 적어도 50TB 이상일 것으로 기대합니다.
Mehrdad

3
귀하와 Hadley 모두에게 입찰 데이터는 거래량에 대한 것이 아닙니다. 일반적으로 입찰 데이터는 3V 및보다 최근에는 4V 모델 (Gartner에서 제안)을 통해 정의됩니다. 아래 Dawny33의 답변을 참조하십시오. 그러나 일부 전문가 (Gartner 포함)는 또 다른 전문가를 고려하고 V는 비즈니스 가치를 나타내는 가장 중요한 V 차원을 주장합니다 . 예를 들어, 참조 이 게시물이 게시물 .
Aleksandr Blekh

2
@AleksandrBlekh 귀하의 의견은 전문가들 사이에서 "빅 데이터"의 기준을 둘러싼 논쟁에 대한 미묘한 논의와 이에 대한 귀하의 주장을 뒷받침하는 참고 문헌을 포함합니다. 나는 당신이 그것을 대답으로 변환하는 것을 고려해야한다고 생각합니다.
Silverfish

19

4 개의 V를 모두 만족하는 경우 데이터 세트 / 스트림을 빅 데이터라고합니다.

  • 음량
  • 속도
  • 정확성
  • 종류

만족하지 않으면 데이터 세트를 빅 데이터라고 부를 수 없습니다.

참고로 내 비슷한 대답입니다.


데이터 과학자로서 Map-Reduce 프레임 워크가 정말 좋습니다. 데이터를 분할하고 매핑 한 다음 매퍼 단계의 결과가 단일 결과로 줄어 듭니다. 이 프레임 워크가 정말 매력적이며 데이터 세계에 어떤 혜택을 주 었는지 알 수 있습니다.

그리고 이들은 매일 업무 중에 데이터 문제를 처리하는 몇 가지 방법입니다.

  1. 컬럼 데이터베이스 : 이들은 데이터 과학자에게 도움이됩니다. 내가 사용하는 AWS 레드 시프트 내 원주 데이터 저장소로합니다. 복잡한 SQL 쿼리를 실행하는 데 도움이되고 고통을 덜어줍니다. 특히 성장 팀이 복잡한 질문을 할 때 정말 좋습니다. "예, 쿼리를 실행했습니다. 하루 만에 얻을 수 있습니다!"
  2. 스파크 및 맵 축소 프레임 워크 : 이유는 위에서 설명했습니다.

그리고 이것은 데이터 실험이 수행되는 방식입니다.

  • 답변해야 할 문제가 식별되었습니다
  • 가능한 데이터 소스가 이제 나열됩니다.
  • 파이프 라인은 로컬 데이터베이스에서 데이터를 Redshift로 가져 오도록 설계되었습니다. 그래, 스파크가 온다. DB의-> S3-> Redshift 데이터 이동 중에 정말 유용합니다.
  • 그런 다음 Redshift의 데이터에 대해 쿼리 및 SQL 분석이 수행됩니다.

예, 하이퍼 로그 로그 등과 같은 빅 데이터 알고리즘이 있습니다. 그러나 나는 그것들을 사용할 필요성을 찾지 못했습니다.

예. 데이터는 가설을 생성하기 전에 먼저 수집됩니다.


5
나는 이것에 동의하지만 빅 데이터라는 용어는 데이터 자체보다 더 많은 것을 포함한다고 생각합니다. 그것은 또한 그것에 적용되는 방법과 그것에 관한 가설을 생성하기 전에 데이터를 먼저 수집하는 패러다임입니다.
메오

1
@ GuðmundurEinarsson 나는 서둘러 왔으므로 짧은 시간 안에 최고의 답변을 드리고 싶었습니다. 따라서 이제는 업계의 대규모 데이터에 대한 일상적인 경험에서 얻은 워크 플로와 이해를 바탕으로이를 편집하고 확장했습니다.
Dawny33

1
여기서 빅 데이터의 중요한 특성이 아니라 빅 데이터를 정의하는 것으로 4 개의 V가 반전됩니다. 이 중 몇 가지 없이도 많은 데이터를 빅 데이터로 만들 수 있으며 일부는 IBM 인포 그래픽에 나열되어 있습니다.
John

@ 존 네, V는 실제로 많이 바뀌고 있습니다. 새로운 V ( Value )에 대한 논쟁도 있습니다
Dawny33

1
나는 그들이 변화하고 있다고 말하는 것이 아니라, 당신이 일부 속성에 대한 설명을 정의로 잘못 바꾸고 있다고 말하고 있습니다. 그것은 개에 대한 충성심, 웃음, 핥기와 개에 관한 중요한 것들을 설명하는 누군가와 비슷하며 누군가가 개의 정의라고 말합니다. 즉, 분석 방향을 반대로 생각하면 올바른 길을 가고 있다고 생각하지만 데이터의 크기에 어떤 식 으로든 연결해야합니다. 나는 그것을 할 수있는 좋은 방법이 많이 있다고 생각하며 그것을 개발하면 좋을 것입니다.
John

14

빅 데이터의 유용한 정의 는 특정 현상에 대한 모든 정보 를 카탈로그 화하는 데이터라고 생각합니다 . 내가 의미하는 바는 관심있는 일부 모집단에서 샘플링하여 해당 단위에 대한 일부 측정 값을 수집하는 것이 아니라 관심있는 전체 모집단에 대한 측정 값을 수집한다는 것입니다. Amazon.com 고객에 관심이 있다고 가정하십시오. Amazon.com은 일부 사용자 만 추적하거나 일부 트랜잭션 만 추적하는 것이 아니라 모든 고객 구매에 대한 정보를 수집 할 수 있습니다.

내 생각에, 데이터 자체의 메모리 크기에 의존하는 정의는 다소 제한적 유틸리티입니다. 이 측정법에 따르면 충분한 컴퓨터가 주어지면 실제로는 큰 데이터가 아닙니다. 무한대의 대형 컴퓨터에서이 주장은 환원적인 것처럼 보일 수 있지만 소비자 용 랩톱을 Google 서버와 비교하는 경우를 고려하십시오. 분명히 나는 ​​테라 바이트 단위의 데이터를 탐색하려고 시도하는 데 막대한 물류 문제가 있었지만 Google 은이 작업을 매우 쉽게 처리 할 수있는 리소스를 보유하고 있습니다. 더 중요한 것은 컴퓨터의 크기가 데이터의 본질적인 속성이 아니기 때문에 현재 보유하고있는 기술을 참조하여 데이터를 순수하게 정의하는 것은 팔 길이로 거리를 측정하는 것과 같습니다.

이 주장은 단순한 형식주의가 아닙니다. 컴퓨팅 능력이 충분 해지면 복잡한 병렬화 체계와 분산 컴퓨팅 플랫폼의 필요성이 사라집니다. 따라서 빅 데이터가 너무 커서 RAM에 맞지 않다는 정의를 받아들이면 (또는 엑셀 등의 충돌), 머신을 업그레이드 한 후 빅 데이터는 존재하지 않습니다. 바보 같네요

그러나 빅 데이터에 대한 데이터를 살펴 보도록하겠습니다.이를 "빅 메타 데이터"라고합니다. 이 블로그 게시물 은 중요한 추세를 관찰합니다. 사용 가능한 RAM이 데이터 크기보다 더 빠르게 증가하고 있으며 "빅 RAM이 큰 데이터를 먹고 있습니다"라고 도발적으로 주장합니다. 즉, 충분한 인프라가 있으면 더 이상 큰 데이터 문제가 없습니다. 데이터가 있고 기존 분석 방법의 영역으로 돌아갑니다.

또한 표현 방법마다 크기가 다르므로 메모리 내 크기와 관련하여 "빅 데이터"를 정의한다는 의미가 무엇인지 명확하지 않습니다. 많은 중복 정보가 저장되는 방식으로 데이터를 구성하는 경우 (즉, 비효율적 인 코딩을 선택하면) 컴퓨터가 쉽게 처리 할 수있는 임계 값을 쉽게 넘을 수 있습니다. 그러나 왜 정의에이 속성이 있어야합니까? 내 생각에, 데이터 세트가 "빅 데이터"인지 아닌지는 연구 설계에서 효율적으로 선택했는지 여부에 달려 있지 않아야합니다.

104107관찰 결과는 완벽합니다. 또한 빅 데이터는 내가 정의한대로 기존 통계에서 개발 한 것 이상의 특수 기술이 필요하지 않을 수도 있음을 의미합니다. 표본과 신뢰 구간은 외삽이 필요할 때 여전히 유용하고 유효한 추론 도구입니다. 선형 모델은 일부 질문에 완벽하게 수용 가능한 답변을 제공 할 수 있습니다. 그러나 내가 정의한 빅 데이터에는 새로운 기술이 필요할 수 있습니다. 훈련 데이터보다 예측 변수가 많거나 예측 변수가 데이터 크기에 따라 커지는 상황에서 새 데이터를 분류해야 할 수 있습니다. 이러한 문제에는 최신 기술이 필요합니다.


따로,이 질문은 정의가 왜 중요한지, 즉 주제를 정의하는 대상에 대해 암묵적으로 다루기 때문에 중요하다고 생각합니다. 1 학년 학생들을위한 추가에 대한 논의는 정해진 이론으로 시작하는 것이 아니라 실제 물체의 수를 세는 것으로 시작합니다. "빅 데이터"라는 용어는 대부분 대중 언론이나 통계 또는 기계 학습 전문가 (예 : 전문 분석을 요구하는 마케팅 자료)가 아닌 사람들 간의 커뮤니케이션에서 발생하는 경험으로, 현대의 컴퓨팅 관행이 악용 될 수있는 풍부한 정보가 있음을 의미한다고 생각합니다. 이것은 거의 항상 개인 정보가 아닌 경우 즉시 눈에 띄지 않는 소비자에 대한 정보를 나타내는 데이터와 관련이 있습니다.

따라서 "큰 데이터"의 일반적인 사용을 둘러싼 내포 및 분석은 데이터가 충분한 추론 적 방법을 적용 할 경우, 사람의 삶에 대한 모호하거나 숨겨져 있거나 개인적인 세부 사항을 드러 낼 수 있다는 아이디어를 전달합니다. 언론이 빅 데이터에 대해보고 할 때, 이러한 익명 성 악화는 일반적으로 그들이 추구하는 것입니다. 대중 언론과 비전문가들은 무작위의 장점에 대해 아무런 관심을 갖지 않기 때문에이 관점에서 "빅 데이터"를 정의하는 것은 다소 잘못된 것으로 보입니다. 포레스트 및 지원 벡터 머신 등은 서로 다른 규모의 데이터 분석 문제에 대한 감각이 없습니다. 그리고 이것은 괜찮습니다.그들의 관점에서의 관심은 정보화 시대의 사회적, 정치적, 법적 결과에 집중되어있다. 미디어 또는 비전문가에 대한 정확한 정의는 이해가 정확하지 않기 때문에 실제로 유용하지 않습니다. (나를 잘난 척하지 마십시오. 모든 사람이 모든 것에 대해 전문가가 될 수있는 것은 아니라는 것을 단순히 관찰하고 있습니다.)


7
이. " '빅 데이터'라는 용어는 대부분 대중 언론이나 통계 또는 기계 학습 전문가가 아닌 사람들 (예 : 전문 분석을 요구하는 마케팅 자료) 사이의 의사 소통에서 발생합니다."
Momo

2
마지막 단락으로 머리에 못을 박았다고 생각합니다. 대중 언론의 이해와 통계 / ML / 데이터 과학 분야의 사람들이 빅 데이터라는 용어에 대해 생각하는 것 사이에는 분명한 차이가 있다고 생각합니다. 나는 그것이 실제로 무엇인지에 대해 더 명확한 합의가 필요하다고 생각합니다. 그 이유 중 하나는 사람들이 해당 용어를 잘못 적용하거나 잘못 사용할 수없는 용어를 조작 할 수 없도록 참조하는 것입니다.
Gumeo

1
나는 당신과 점점 더 동의하기 시작한다고 생각합니다. 나는 여전히 이력서에 관심이 있고 주제에 관심이있는 사람들이 그 문제에 대해 2 센트를 넣는 참조 질문이 필요하다고 생각합니다. 나는 여기서 질문을 찾고 있었고이 토론이 부족하다고 느꼈다.
Gumeo

1
나는 이것이 귀중한 대화라고 생각합니다. 질문을하게되어 기쁩니다! 내 의견이 도움이되었다 니 다행입니다.
Monica Monica

1
나는 여러 가지 이유로이 답변을 좋아합니다. 첫째, "큰 데이터"는이를 분석하는 데 사용되는 알고리즘과 거의 관련이 없음을 강조하는 것이 중요하다고 생각합니다. 그들 대부분은 20-30 세 (무작위 숲, 선형 회귀 등)이며 정상적으로 작동합니다. 업계의 일부 사람들은 "빅 데이터"가 새로운 알고리즘과 함께 제공된다고 생각합니다. 아마도 기계 학습이 수년 동안 존재했음을 알지 못했을 것입니다. 둘째, "빅 데이터"는 크기가 아닙니다. 128Gb RAM을 사용할 수있는 서버가 있고 모든 것을 메모리에 잘 맞출 수 있다면. (계속)
skd

7

여기에 이미지 설명을 입력하십시오

빅 데이터에 대한 거대한 문헌을 교차 점검하면서 최대 14 개의 "V"용어를 수집했으며 그 중 13 개는 약 11 차원을 따라 수집되었습니다.

  • 효력,
  • 값,
  • 변동성 / 변형,
  • 종류,
  • 속도,
  • 진실성 / 유의,
  • 생존 능력,
  • 가상 현실,
  • 심상,
  • 휘발성, 격하기 쉬움,
  • 음량.

14 번째 용어는 Vacuity입니다. 최근의 도발적인 게시물에 따르면 Big Data doess 's Exist . 주요 요점은 다음과 같습니다.

  • "빅 데이터"는 크지 않습니다
  • 대부분의 "빅 데이터"는 실제로 유용하지 않습니다
  • [우리는해야한다] 작은 데이터를 최대한 활용

빅 데이터의 적절한 정의는 하드웨어, 소프트웨어, 요구 및 지식에 따라 발전 할 수 있으며 고정 된 크기에 의존해서는 안됩니다. 따라서 빅 데이터 의 의미있는 정의 : 2011 년 6 월 : 혁신, 경쟁 및 생산성의 차세대 경계 :

"빅 데이터"는 일반적인 데이터베이스 소프트웨어 도구가 캡처, 저장, 관리 및 분석 할 수있는 능력을 넘어서는 데이터 세트를 의미합니다.


1
"진공"참조 기사는 끔찍하게 약한 것 같습니다. 하루에 30GB의 데이터가 크지 않다는 의미가 있습니다 (그리고 그 크기는 정의의 유일한 구성 요소입니다). 게다가, 기업들은 데이터가 실제 데이터보다 훨씬 크다고 말했기 때문에 데이터가 크지 않다는 것을 의미합니다. 어디에도 큰 정의가 없습니다. "크지 않은"을 제안하는 데 사용 된 모든 예제에는 여기에 V가 많이 나와 있습니다.
John

"진공"은 크기에만 적용되지 않습니다. 실제로, 최종 1- 라이너에서 big의 정의는 현재의 실습 상태와 함께 진화하는 것을 의미합니다. 과거에 큰 것이 몇 년 후에는 작은 것으로 간주 될 수 있습니다. 여기서는 위의 만화에서 볼 수 있듯이 "빅 데이터"가 물질이 거의없는 마법의 만트라로 사용되는 경우에 대한 용어를 사용했습니다.
Laurent Duval

1
14 가지 기준이 모두 문자 V로 시작될 가능성은 얼마나됩니까? 우리는 모두 여기 사람들을 염두에두고 있습니다.
Aksakal

기본적으로 이는 빅 데이터와 같은 용어가 통계보다는 마케팅 영역에 속할 가능성이 더 높다는 데 동의합니다. 그러나 나는 읽은 용어의 "컬렉션"을 공유하고 싶었습니다. 그것은 3V, 5V 다음 시작하고있다 때로는 7 등 그 용어 수 막연하게 데이터 하나에 도움이 지점 특성이있다
로랑 듀발

4

사람들은 빅 데이터에서 예선 을 고수하는 것 같습니다 . 그러나 크기는이 용어 (도메인)의 구성 요소 중 하나 일뿐입니다. 그것은 당신의 데이터 세트가이었다 충분하지 않아 당신은 또한 그것을 이해하고 분석하고 심지어 처리하기 어려울 필요가 큰 데이터를 문제 (도메인)를 호출합니다. 어떤 사람들은이 기능을 비 구조적 이라고 부릅니다 . 그러나 그것은 서로 다른 조각과 데이터 요소 사이의 관계가 명확하지 않은 구조 일뿐입니다.

고 에너지 물리학 자들이 CERN 과 같은 곳에서 작업하고있는 데이터 세트를 고려하십시오 . 그들은 빅 데이터 용어가 만들어 지기 전에 몇 년간 페타 바이트 크기의 데이터를 사용해 왔습니다 . 그러나 지금도 그들은 내가 아는 한이 빅 데이터를 부르지 않습니다. 왜? 데이터는 다소 규칙적이므로 데이터를 어떻게 처리해야하는지 알고 있습니다. 그들은 모든 관찰을 아직 설명하지 못할 수도 있으므로 새로운 모델 등을 연구합니다.

이제 CERN의 LHC에서 몇 초 안에 생성 될 수있는 크기를 가진 데이터 세트를 처리하는 문제를 Big Data라고합니다. 그 이유는 이러한 데이터 세트는 일반적으로 형식이 다른 여러 소스, 데이터 간의 불명확 한 관계 및 비즈니스에 대한 불확실한 가치를 가진 여러 데이터 요소이기 때문입니다. 단지 1TB 일 수 있지만 모든 오디오, 비디오, 텍스트, 음성 등을 처리하는 것은 매우 어렵습니다. 따라서 필요한 복잡성과 리소스 측면에서 CERN 데이터의 페타 바이트보다 우선합니다. 우리는 데이터 세트에 식별 가능한 유용한 정보가 있는지조차 알지 못합니다.

따라서 빅 데이터 문제 해결에는 파싱, 알 수없는 값의 데이터 요소 추출 및 서로 연결이 포함됩니다. 이미지를 "파싱"하는 것은 큰 문제가 될 수 있습니다. 예를 들어, 도시의 거리에서 CCTV 영상을 찾고 사람들이 더 화를 내는지 여부와 보행자와 관련된 도로 사고에 영향을 미치는지 확인하려고합니다. 수많은 비디오가 있으며 얼굴을 찾고 표정으로 기분을 측정 한 다음 날씨 (예측, 온도) 및 교통 혼잡을 제어하면서 사고 수 데이터 세트, 경찰 보고서 등과 연결합니다. 다양한 종류의 이러한 대규모 데이터 세트를 지원하고 데이터를 서로 효율적으로 연결할 수있는 스토리지 및 분석 도구가 필요합니다.

빅 데이터는 복잡성이 그 크기와 구조 및 정보 인코딩의 복잡성에서 비롯되는 복잡한 분석 문제입니다.


입력이 양호합니다. LHC와 CCTV 데이터 문제 사이의 대조는 사람들이 종종 그리워하는 것입니다.
Gumeo

3

사람들이 빅 데이터에 대해 혼란스러워하는 이유는 그 이점을 보지 못했기 때문입니다. 빅 데이터 (기술)의 가치는 수집 할 수있는 데이터의 양뿐만 아니라 예측 모델링에도 중요합니다.

  1. 예측 모델링 은 통계 및 예측 방식을 완전히 변경하여 데이터에 대한 통찰력을 제공합니다. 새로운 모델, 새로운 기술로 더 나은 추세, 데이터 노이즈를 감지하고 "다차원"데이터베이스를 캡처 할 수 있기 때문입니다. 데이터베이스에 차원이 많을수록 좋은 모델을 만들 수있는 가능성이 높아집니다. 예측 모델링은 빅 데이터 가치의 핵심입니다.
  2. 빅 데이터 (데이터 크기 측면에서)는 예비 단계이며 다음과 같은 방법으로 예측 모델링을 제공합니다. 1. 예측 변수 수 (더 많은 변수), 2. 관측 수.

제한된 하드웨어 성능으로 인해 구조화되지 않은 데이터를 처리 할 수있는 제한된 용량으로 인해 이전에는 캡처 할 수 없었던 데이터를 캡처 할 수 있기 때문에 더 많은 예측 변수가 있습니다. 예측 변수가 많을수록 중요한 예측 변수를 가질 가능성이 높아집니다 (예 : 더 나은 모델, 더 나은 예측, 비즈니스에 대한 더 나은 의사 결정이 가능함).

더 많은 관측은 시간이 지남에 따라 모델을 더욱 견고하게 만들뿐만 아니라 모델이 실제로 제시 / 생성 할 수있는 모든 가능한 패턴을 배우고 감지하는 데 도움이됩니다.


3

빅 데이터와 반의어 (아마도 스몰 데이터)에 대한 까다로운 점은 이것이 연속체라는 것입니다. 빅 데이터 사람들은 스펙트럼의 한쪽으로 가고 작은 데이터 사람들은 다른쪽으로 갔지만 모든 사람들이 동의 할 수있는 명확한 선은 없습니다.

나는 둘 사이의 행동 차이를 살펴볼 것입니다. 작은 데이터 상황에서는 "작은"데이터 세트가 있으며 가능한 한 모든 데이터 포인트에 대해 최대한 많은 정보를 제공하려고합니다. 더 많은 데이터를 얻으면 더 많은 결과를 얻을 수 있습니다. 그러나 더 많은 데이터를 얻는 것은 비용이 많이들 수 있습니다. 수집 한 데이터는 종종 흥미로운 행동을 선별하기 위해 부분적인 계승 테스트를 수행하는 것과 같이 수학적 모델에 적합하도록 제한됩니다.

빅 데이터 상황에서는 "빅"데이터 세트가 있지만 데이터 세트가 제한되지 않는 경향이 있습니다. 일반적으로 고객이 분석을 쉽게하기 위해 라틴 스퀘어 가구를 구매하도록 설득하지 않아도됩니다. 대신 구조화되지 않은 데이터의 덩어리와 덩어리가있는 경향이 있습니다. 이러한 문제를 해결하기 위해 목표는 작은 데이터에 익숙한 경우 순진하게 시도 할 수있는 것처럼 "최고의 데이터를 선택하고 가능한 한 모든 것을 짜 내지 않는"경향이 있습니다. 목표는 "모든 단일 데이터 포인트에서 작은 smidgen을 얻을 수 있다면 그 합계는 거대하고 심오 할 것입니다."

그들 사이에는 중간 크기의 데이터 세트가 있으며 구조는 괜찮습니다. 이것들은 "정말 어려운 문제"입니다. 지금 우리는 두 개의 캠프로 구성하는 경향이 있습니다. 하나는 작은 데이터가 마지막 비트를 압착하고 다른 하나는 각 데이터 포인트가 자체적으로 빛을 내도록 관리하려고합니다. 권리. 앞으로 더 큰 데이터 세트에 적응하려고하는 더 작은 데이터 프로세스와 더 구조화 된 데이터를 활용하기 위해 더 큰 데이터 프로세스에 적응하려고합니다.


작은 데이터의 특성화는 분석에 대한 Bem의 책과 매우 흡사합니다. 향후 데이터 수집의 기반이되는 개인 탐사 이외의 소규모 데이터 세트를 처리하는 부적절한 방법이기 때문에 이에 대한 비판을 찾아보십시오.
John

@ 존 나는 그것들을 봐야 할 수도 있습니다. 연속성을 설명하는 지점으로 특성화를 사용할 수없는 비판이 충분합니까?
Cort Ammon

실제로 여기에 갈 길이는 길지만 필수 메시지는 작은 데이터로 각 데이터 포인트에서 가능한 모든 것을 짜지 않는다는 것입니다. 아마도 구글 Gelman과 Forking Paths; 또는 실험자 자유도. 연속체의 포인트뿐만 아니라 소규모 및 빅 데이터 분석에 대해 다르게 생각해야합니다.
John

3

빅 데이터를 정의하는 데 필수적인 세 가지 구성 요소가 있다고 말합니다. 분석 방향, 모집단 관련 데이터 크기 및 계산 문제 관련 데이터 크기.

문제 자체는 데이터가 존재하면 가설이 개발된다는 것을 암시합니다. "collected"라는 단어는 목적을 의미하고 데이터는 당시 알려진 목적을 위해 존재하지 않는다고 생각하기 때문에 "collected"를 사용하지 않습니다. 수집은 종종 기존의 데이터를 함께 사용하여 질문을 처리함으로써 빅 데이터에서 발생합니다.

두 번째로 중요한 부분은 사후 분석, 더 작은 데이터 세트를 사용한 탐색 적 분석이 적합한 데이터가 아니라는 것입니다. 수집 된 추정치가 많은 작은 표본 문제를 무시할 수있는 모집단 추정치에 가깝다고 생각할만큼 충분한 크기 여야합니다. 이 때문에 나는 지금 당장 현장에서 다중 비교 수정을 추진해야한다는 것에 약간의 우려가 있습니다. 전체 인구가 있거나 믿을만한 근거가 있다고 생각되는 근사치가있는 경우 그러한 수정 사항은 무시해야합니다. "큰 데이터"를 작은 표본 (예 : 큰 로지스틱 회귀)으로 바꾸는 문제가 종종 발생한다는 것을 알고 있지만, 특정 질문에 대한 큰 표본이 ​​무엇인지 이해해야합니다. 다수의 다중 비교 질문은 대신 효과 크기 질문으로 전환되어야합니다. 물론 많은 사람들이 여전히 빅 데이터와 마찬가지로 알파 = 0.05 테스트를 사용한다는 아이디어는 터무니 없습니다.

마지막으로 소수의 사람들은 자격이 없습니다. 경우에 따라 적은 모집단이 있으며이를 조사하기 위해 필요한 모든 데이터를 수집하고 처음 두 기준을 충족시킬 수 있습니다. 데이터는 계산 문제가되기에 충분한 크기 여야합니다. 따라서 어떤면에서 우리는 "빅 데이터"가 일시적인 버즈 단어 일 수도 있고 엄격한 정의를 찾아내는 현상 일 수도 있음을 인정해야합니다. "빅 데이터"를 크게 만드는 것은 몇 년 안에 사라질 것이며 컴퓨터 용량에 따른 Hadley와 같은 정의는 기이하게 보일 것입니다. 그러나 다른 차원에서 계산 문제는 컴퓨터 용량에 관한 것이 아니거나 절대로 해결할 수없는 컴퓨터 용량에 관한 질문입니다. 그런 의미에서 "

필자는이 영역에서 어려운 계산 문제가 무엇인지에 대한 예 또는 확고한 정의를 제공하지 않았다는 점에 주목할 수 있습니다 (일반적으로 comp sci에 많은 예제가 있으며 일부는 적용되지 않습니다). 나는 그것이 다소 열려 있어야한다고 생각하기 때문에 어떤 것도 만들고 싶지 않다. 시간이 지남에 따라 많은 사람들이 수집 한 작품이 모여 하드웨어보다 소프트웨어 개발을 통해 더 쉽게 이러한 일을 할 수 있습니다. 아마도이 마지막 요구 사항을보다 확실하게하기 위해이 필드는 더 완전하게 성숙해야하지만 가장자리는 항상 흐릿합니다.


입력 해 주셔서 감사합니다! 이 스레드에 대한 귀중한 통찰력을 제공한다고 생각합니다. 인구의 데이터 크기는 여기에서 다소 간과되었다고 생각합니다.
Gumeo

1

Wikipedia는 매우 명확한 정의를 제공합니다

빅 데이터는 기존 데이터 처리 응용 프로그램이 부적절 할 정도로 크거나 복잡한 데이터 세트의 광범위한 용어입니다. (출처 https://en.wikipedia.org/wiki/Big_data )

내가 아는 다른 간단한 정의는

컴퓨터 메모리에 맞지 않는 데이터.

불행히도 나는 그것에 대한 언급을 기억하지 못합니다. 다른 모든 것은이 정의에서 나옵니다. 어떻게 든 많은 양의 데이터를 처리해야합니다.


0

빅 데이터는 빅 데이터 세트 (수백만 및 / 또는 수십억 행)를 작업하거나 현재 어디에서나 수집 할 수있는 광범위한 데이터 리소스에서 정보 / 패턴을 찾으려고하는 것에 대한 참조입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.