데이터 과학의 일반적인 문제 중 하나는 여러 소스에서 데이터를 어떻게 정리 (반 구조화 된) 형식으로 수집하고 다양한 소스의 메트릭을 결합하여 더 높은 수준의 분석을 수행하는 것입니다. 다른 사람들의 노력, 특히이 사이트의 다른 질문들을 보면이 분야의 많은 사람들이 다소 반복적 인 일을하고있는 것 같습니다. 예를 들어 트윗, 페이스 북 게시물, 위키 백과 기사 등을 분석하는 것은 많은 빅 데이터 문제의 일부입니다.
이러한 데이터 세트 중 일부는 제공자 사이트에서 제공하는 공용 API를 사용하여 액세스 할 수 있지만 일반적으로 일부 API 또는 유용한 정보가 누락되어 동일한 분석을 반복해서 수행해야합니다. 예를 들어 클러스터링 사용자는 서로 다른 사용 사례와 기능 선택에 의존 할 수 있지만 Twitter / Facebook 사용자의 기본 클러스터링은 API가 제공하지 않거나 독립적 인 데이터 세트로 공개적으로 제공되지 않는 많은 빅 데이터 애플리케이션에 유용 할 수 있습니다. .
다른 빅 데이터 문제를 해결하는 데 재사용 할 수있는 유용한 데이터 세트가 포함 된 인덱스 또는 공개적으로 사용 가능한 데이터 세트 호스팅 사이트가 있습니까? 데이터 과학에 대한 GitHub (또는 사이트 / 공개 데이터 집합 또는 적어도 포괄적 인 목록)와 같은 것을 의미합니다. 그렇지 않다면 데이터 과학을위한 플랫폼이없는 이유는 무엇입니까? 데이터의 상업적 가치는 데이터 세트를 자주 업데이트해야합니까? 데이터 과학자를 위해 고안된 데이터 세트를 공유하기위한 오픈 소스 모델을 가질 수 없습니까?