"Big Data"정의


23

하나 있습니까?

내가 찾을 수있는 모든 정의는 데이터의 크기, 복잡성 / 다양성 또는 속도를 설명합니다.

Wikipedia의 정의 는 실제 숫자로 찾은 유일한 것입니다.

빅 데이터 크기는 단일 데이터 세트에서 수십 테라 바이트에서 수 페타 바이트에 이르는 2012 년 현재 지속적으로 변화하는 목표입니다.

그러나 이는 다음 단락에서 참조 되는 MIKE2.0 정의 와 모순되는 것처럼 보입니다 . 이는 "큰"데이터가 작을 수 있으며 3GB의 데이터 만 생성하는 항공기의 100,000 개 센서가 큰 것으로 간주 될 수 있음을 나타냅니다.

다음과 같은 말에도 불구하고 IBM은 :

빅 데이터는 단순한 크기 문제가 아닙니다.

그들의 정의 에서 크기를 강조했다 .

오라일리도 강조했다 "volume, velocity and variety" . 잘 설명하고 더 깊이 설명했지만, 그 정의는 다른 사람들의 재 해시 인 것 같습니다.

내가 생각하는 컴퓨터 주간 기사 제목 꽤 잘 기사의 수 최대 금액 "빅 데이터이며이 경쟁 우위를 확보하는 방법을 사용할 수있는 것" .

그러나 ZDNet 은 2012 년부터 다음과 같이 승리 합니다 .

"빅 데이터"는 IT 시장의 고성능 컴퓨팅 틈새 시장에서 거품을 일으킨 어구입니다. 기술 공급 업체 10 곳의 프레젠테이션을 통해 15 가지 정도의 다른 정의가 나올 것입니다. 물론 각 정의는 해당 공급 업체의 제품 및 서비스에 대한 요구를 지원하는 경향이 있습니다. 상상 해봐.

기본적으로 "빅 데이터"는 어떤 식 으로든 형태 나 형태가 "빅"입니다.

"큰"은 무엇입니까? 현재 시점에서 수량화 할 수 있습니까?

"big"을 정량화 할 수없는 경우 일반성에 만 의존하지 않는 정의가 있습니까?


7
""큰 "은 무엇입니까? 현재로서는 정량화 할 수 있습니까?". 확실한. 현재 시간에 처리 할 수있는 것보다 큰 것이 더 큼;)
Oded

1
@Oded, 당신은 "handle"을 정의해야합니다 :-).
Ben

14
당신이 요구해야한다면, 당신의 계산은 충분히 크지 않습니다. ;)
FrustratedWithFormsDesigner

@Ben-개인과 시스템에 따라 다르게 정의됩니다 ...
Oded

4
"큰"은 대부분 "처리하기 어려움"을 나타냅니다. 메모리에 들어 가지 못할

답변:


42

하나도 없습니다. 유행어입니다.

그럼에도 불구하고 데이터는 기존 시스템의 기능을 넘어서는 것입니다. 데이터가 너무 커서 가장 큰 디스크에 저장하기 어렵고 쿼리가 특별한 최적화없이 너무 오래 걸립니다. 네트워크 또는 디스크가 들어오는 트래픽 흐름을 지원할 수 없습니다. 일반적인 오래된 데이터 뷰가 모양 / 데이터의 크기 / 폭 ...

기본적으로 데이터는 "단지 하드웨어를 추가하면 안된다"고 잘못 정의 된 티핑 포인트를 벗어납니다.


또한 +1로, 더 큰 하드웨어를 사용하고 이전에 사용자 정의 된 도구가 이러한 문제를 해결하기 위해 성숙하고 표준화되고 상업적으로 판매됨에 따라 "큰"숫자는 항상 변화하고 있습니다.
FrustratedWithFormsDesigner 2016 년

다시 말해서 : 아니, 전혀 모른다, 아니, 아니 :-).
Ben

또한 빅 데이터가 커지기 전에 많은 회사와 연구소에서 이미 빅 데이터를 수행했습니다. 이제는 모든 소셜 미디어 / 온라인 빅 데이터 문제와 함께보다 주류가되었습니다.
Paul Hiemstra

2

Oracle 링크 (Immad Careem의 주석) 또는 aacle.com/us/technologies/big-data/index.html에 나와 있습니다. 빅 데이터는 RDBMS에 저장된 관계형 데이터가 아닌 모든 것입니다 . 과대 광고가 있기 몇 년 전에는 단지 "많은 데이터"였습니다. 이제는 마케팅 담당자가 특정 데이터로 성장하고 발전했습니다.

빅 데이터를 실제로 간주해야하는 몇 가지 부차적 인 이유 (마케팅 제외)가 있습니다.

  1. 지도 축소의 발명
  2. 하둡과 같은 NOSQL 기술
  3. 비정형 데이터 유형의 요구에 영향을받는 기존 RDBMS의 일부 진화
  4. EMC2 Corporation에서 제공하는 일부 하드웨어 기술

2
"지도 축소의 발명"? 농담해야 해요
Telastyn

1
"관계형 데이터가 아닌 모든 것"은 Oracle과 같이 RDB 중심 인 누군가 에게서만 나올 수있는 정의입니다. 이 정의에 따라 모든 SolR 인덱스, 모든 MongoDB 데이터베이스 및 모든 Berkley DB는 "빅 데이터"입니다. 그리고 그것은 단지 바보입니다.
Joachim Sauer


-1

O'Reilly와 다른 사람들이 마침내 우리가 11 년 전에 처음 소개 한 Gartner의 3V의 빅 데이터에 걸렸습니다. 참고로, 여기에 내가 2001 년에 쓴 원래의 조각입니다 : http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

Gartner의 최근 업데이트 된 정의는 또한 가치 측면을 인식합니다. "빅 데이터는 향상된 통찰력 발견, 의사 결정 및 프로세스 자동화를 위해 혁신적인 형태의 정보 처리가 필요한 볼륨, 속도 및 / 또는 다양성을 가진 정보 자산입니다."

또한 기술 채택 측면에서 세 가지 벡터를 따라 데이터 크기를 정량화하는 방법도 개발했습니다. 그러나 공개적으로 공유 할 수는 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.