알다시피, 요즘 "빅 데이터"는 사람들이 원하는 말로 사람들이 용어를 정의하는 방식이 다소 느슨합니다. 그러나 일반적으로 규모가 크면 적어도 RDBMS와 같은 더 전통적인 기술로는 더 이상 Hadoop과 같은 빅 데이터 기술을 보완하지 않고 관리 할 수없는 경우 빅 데이터를 다루고 있다고 말할 수 있습니다.
실제로 데이터가 얼마나 커야하는지 논쟁의 여지가 있습니다. 다음은 실제로 5TB 미만의 데이터에는 해당되지 않는다고 주장 하는 (일부 도발적인) 블로그 게시물 입니다. (명확하게 말하면, "5TB 미만은 큰 데이터가 아닙니다"라고 주장하지는 않지만 "5TB 미만이 충분하지 않아 하둡이 필요하지 않습니다".
그러나 더 작은 데이터 세트에서도 Hadoop과 같은 빅 데이터 기술은 배치 작업에 적합하고 구조화되지 않은 데이터 (구조가 사전에 알려지지 않았거나 변경 될 수있는 데이터)와 잘 재생하는 것, 수평 확장 성 (예 : (기존 서버를 강화하는 대신 노드를 추가하여 확장) 및 (위의 링크 된 포스트 노트의 주석 중 하나로서) 데이터 처리를 외부 데이터 세트와 통합 할 수있는 기능 (매퍼가있는 맵 축소를 고려하십시오) 다른 서버로 전화를 겁니다). NoSql 데이터베이스와 같은 빅 데이터와 관련된 다른 기술은 빠른 성능과 일관된 가용성을 강조하면서 대량의 데이터 세트를 처리 할뿐만 아니라 반 구조화되지 않은 데이터를 처리하고 수평으로 확장 할 수 있습니다.
물론 기존의 RDBMS는 ACID 보증 (원 자성, 일관성, 격리, 내구성) 및 특정 작업에 대한 성능 향상뿐만 아니라보다 표준화되고 성숙하며 (많은 사용자에게) 친숙 함을 포함하여 자체적 인 장점을 가지고 있습니다. 따라서 틀림없이 "큰"데이터의 경우라도 데이터의 적어도 일부를 전통적인 SQL 데이터베이스에로드하고이를 빅 데이터 기술과 함께 사용하는 것이 좋습니다.
따라서 빅 데이터 기술이 사용자에게 부가 가치를 제공 할만큼 충분히 크면 빅 데이터가 있다는 것이보다 관대 한 정의입니다. 그러나 보시다시피 데이터 크기뿐만 아니라 데이터 작업 방법 및 유연성, 일관성 및 성능 측면에서 어떤 종류의 요구 사항에 따라 달라질 수 있습니다. 데이터를 사용 하는 방법 은 데이터를 사용하는 것 (예 : 데이터 마이닝) 보다 질문과 관련이 있습니다. 즉, 데이터 마이닝 및 기계 학습과 같은 사용은 작업하기에 충분한 데이터 세트가 있으면 유용한 결과를 얻을 가능성이 높습니다.