용어가 새롭기 때문에 성가시다
'데이터 과학'분야에서 구직 중이기 때문에 여기에는 두 가지 일이 있다고 생각합니다. 우선, 일자리는 새롭고 다양한 용어에 대한 정의가 없으므로 용어를 직업 설명과 일치시키는 데 일반적으로 동의하지 않습니다. 이것을 '웹 개발자'또는 '백엔드 개발자'와 비교하십시오. 이들은 합리적으로 잘 합의되어 있고 명확한 설명이있는 두 개의 유사한 직업입니다.
둘째, 구인 게시 및 초기 인터뷰를하는 많은 사람들이 그들이 무엇을 고용하고 있는지 잘 모릅니다. 이는 중견 기업이 모집자를 고용하여 신청자를 찾도록하는 경우에 특히 그렇습니다. CareerBuilder 또는 포럼에 작업 설명을 게시하는 것은 이러한 중개자입니다. 이것은 많은 사람들이 자신의 물건을 모른다고 말하는 것이 아니며, 많은 사람들이 자신이 대표하는 회사와 직장의 요구 사항에 대해 잘 알고 있습니다. 그러나 다른 특정 직무를 설명하기 위해 잘 정의 된 용어가 없다면, 종종 직종이 성립됩니다.
이 분야의 세 가지 일반 부문이 있습니다
내 경험상 데이터 과학의 '작업 공간'에는 세 가지 일반 부문이 있습니다.
첫 번째는 데이터 과학을 가능하게하는 수학 및 계산 기술의 개발입니다. 여기에는 새로운 머신 러닝 방법에 대한 통계 연구, 이러한 방법의 구현 및 실제에서 이러한 방법을 사용하기위한 계산 인프라 구축이 포함됩니다. 고객과 가장 멀리 떨어진 부서와 가장 작은 부서입니다. 이 작업의 대부분은 대기업 (Google, Facebook 등)의 학계 또는 연구원이 수행합니다. 이것은 구글의 텐서 플로우, IBM의 SPSS 신경망 개발, 또는 다음 큰 그래프 데이터베이스의 개발을위한 것입니다.
두 번째 부서는 기본 도구를 사용하여 응용 프로그램 별 패키지를 만들어 필요한 데이터 분석을 수행합니다. 사람들은 Python 또는 R을 사용하거나 일부 데이터 세트에서 분석 기능을 빌드하기 위해 무엇이든 사용합니다. 내 경험상이 작업의 많은 부분은 '데이터 세탁'을 수행하여 모든 형태의 원시 데이터를 사용 가능한 것으로 변환합니다. 이 작업의 또 다른 큰 덩어리는 데이터베이스입니다. 필요한 타임 라인에 액세스 할 수있는 방식으로 데이터를 저장하는 방법 파악
세 번째 부서는 새로 조직되고 액세스 가능한 데이터를 분석합니다. 이것은 조직에 따라 가장 고객이 직면하는 측면입니다. 비즈니스 리더가 의사 결정에 사용할 수있는 분석을 생성해야합니다. 이것은 세 부문 중 가장 기술적 인 부분이 아닙니다. 데이터 과학이 초기 단계에 있기 때문에이 시점에서 많은 직종이 두 번째와 세 번째 부서 사이의 하이브리드입니다. 그러나 앞으로는이 두 직무 사이에보다 명확한 구분이있을 것입니다. 사람들은 기술, 컴퓨터 과학 또는 통계 기반 교육이 필요한 두 번째 직업과 일반 교육 만 필요한 세 번째 직업에서 이기게됩니다.
일반적으로 세 사람 모두 자신을 '데이터 과학자'라고 설명 할 수 있지만 처음 두 사람 만 자신을 '기계 학습 엔지니어'라고 합리적으로 설명 할 수 있습니다.
결론
당분간, 당신은 각 직업이 수반하는 것을 스스로 알아 내야 할 것입니다. 현재 나의 직업은 기계 학습을하기 위해 나를 '분석가'로 고용했습니다. 그러나 우리가 일을하면서 회사의 데이터 베이 싱이 부적절하다는 것이 분명해졌으며, 아마도 내 시간의 90 %가 데이터베이스 작업에 소비되고있을 것입니다. 내 기계 학습 노출은 이제 가장 적합한 것으로 보이는 scikit-learn 패키지를 통해 신속하게 물건을 실행하고 고객을 위해 파워 포인트 프레젠테이션을 만들기 위해 csv 파일을 세 번째 부서 분석가에게 촬영합니다.
필드가 유동적입니다. 많은 조직에서 프로세스에 데이터 과학 의사 결정을 추가하려고하지만 그 의미를 명확하게 알지 못합니다. 그것은 그들의 잘못이 아니며 미래를 예측하기가 어렵고 새로운 기술의 파급 효과는 결코 분명하지 않습니다. 현장이 더 확고해질 때까지 많은 직업 자체가 그 용어를 설명하는 데 사용되는 용어만큼이나 모호 할 것입니다.
Data scientist
실제 작업이 무엇인지 명확하지 않은 지정처럼 들리지만machine learning engineer
더 구체적입니다. 첫 번째 경우, 회사는 목표를 제시 할 것이며 어떤 접근법 (머신 러닝, 이미지 처리, 신경망, 퍼지 로직 등)을 사용해야하는지 파악해야합니다. 두 번째 경우, 회사는 이미 어떤 접근 방식을 사용해야하는지 축소했습니다.