프로그래머와 데이터베이스 개발자의 관점에서 데이터 과학으로의 여행을 시작하고 있음을 먼저 설명하겠습니다. 저는 10 년 간의 데이터 과학 전문가도 아니고 통계적인 신도 아닙니다. 그러나 전 세계의 대규모 고객과 협력하는 회사의 데이터 과학자 및 대규모 데이터 세트를 작업하고 있습니다.
내 경험상 데이터 과학자는 작업을 수행하는 데 필요한 도구를 사용합니다. Excel, R, SAS, Python 등은 모두 훌륭한 데이터 과학자를위한 도구 상자의 도구입니다. 최상의 도구는 다양한 도구를 사용하여 데이터를 분석하고 크 런칭 할 수 있습니다.
따라서 R과 Python을 비교하면 데이터 과학 세계에서 R이 모두 잘못되었을 가능성이 큽니다. 훌륭한 데이터 과학자는 둘 다 사용하는 것이 합리적 일 때 두 가지를 모두 사용합니다. 이것은 Excel에도 적용됩니다.
다양한 도구와 언어에 경험이있는 모든 사람을 찾기가 쉽지 않다고 생각합니다. 또한 복잡한 알고리즘을 프로그래밍 할 수있을뿐만 아니라 통계적 관점에서이를 사용하는 방법을 알고있는 데이터 과학자를 구체적으로 찾기가 어려울 것이라고 생각합니다.
제가 작업 한 데이터 과학자의 대부분은 약 2 가지 맛이 있습니다. 프로그래밍 할 수있는 것과 할 수없는 것. 파이썬에서 데이터를 가져 와서 Pandas와 같은 데이터로 조작하고 R의 데이터에 모델을 맞추고 일주일이 끝날 때 데이터를 관리 할 수있는 데이터 과학자와 거의 일하지 않습니다.
나는 그들이 존재한다는 것을 알고 있습니다. 웹 스크래퍼를 개발하고 Hadoop으로 푸시하고 파이썬으로 가져와 복잡한 것을 프로그래밍하고 R을 통해 부팅하여 실행하는 사람들의 많은 데이터 과학 블로그를 읽었습니다. 존재합니다. 저기 있어요 나는 그 모든 것을 할 수있는 너무 많이 뛰어 들지 않았습니다. 어쩌면 그것은 내 지역일까요?
그렇다면 그것은 한 가지 나쁜 것만 전문화한다는 의미입니까? 아닙니다. 많은 친구들이 단 하나의 주요 언어를 전문으로하고 죽입니다. 나는 R 만 알고 그것을 죽이는 많은 데이터 사람들을 알고 있습니다. 또한 데이터를 분석하기 위해 Excel을 사용하는 많은 사람들도 알고 있습니다. 왜냐하면 그것이 대부분의 비 데이터 과학자가 열 수 있고 사용할 수있는 유일한 것 (특히 B2B 회사)이기 때문입니다. 당신이 정말로 대답해야 할 질문은이 것이이 직책에 필요한 것 중 하나입니까? 그리고 가장 중요한 것은 새로운 것을 배울 수 있습니까?
추신
데이터 과학은 단지 "BIG DATA"또는 NoSQL로 제한되지 않습니다.