데이터 과학자 vs 기계 학습 엔지니어


66

"데이터 과학자"와 "머신 러닝 엔지니어"의 차이점은 무엇입니까?

지난 1 년 동안 "머신 러닝 엔지니어"는 구인 광고에 많은 것을 보여주었습니다. 이것은 샌프란시스코에서 특히 눈에 띄는 데, 이는 "데이터 과학자"라는 용어가 유래 된 곳일 것입니다. 어느 시점에서 "데이터 과학자"는 "통계 학자"를 능가했으며, 이제 같은 데이터가 "데이터 과학자"에게 천천히 일어나기 시작하는지 궁금합니다.

이 사이트에서는 커리어 조언이 주제를 벗어난 주제로 나열되어 있지만, 정의에 관해 질문 한 이후로 제 질문이 매우 관련성이 있다고 생각합니다. 나는 자신의 경력 궤적이나 다른 주제 이외의 질문과 같은 개인적인 상황을 고려할 때 권장 사항을 묻지 않습니다.

이 질문은 언젠가이 사이트의 많은 사용자에게 중요한 영향을 줄 수 있기 때문에 주제에 관한 것입니다. 실제로 "통계 학자"대 "데이터 과학자"진화가 발생하지 않은 경우이 스택 교환 사이트가 존재하지 않을 수 있습니다. 그런 의미에서 이것은 다소 적절하고 잠재적으로 존재하는 질문입니다.


2
Data scientist실제 작업이 무엇인지 명확하지 않은 지정처럼 들리지만 machine learning engineer더 구체적입니다. 첫 번째 경우, 회사는 목표를 제시 할 것이며 어떤 접근법 (머신 러닝, 이미지 처리, 신경망, 퍼지 로직 등)을 사용해야하는지 파악해야합니다. 두 번째 경우, 회사는 이미 어떤 접근 방식을 사용해야하는지 축소했습니다.
gurvinder372

관련 : 데이터 과학과 운영 연구 . 또한 과학자엔지니어 와 다릅니다 . 불행히도 업계는 이것에 신경 쓰지 않는 것 같습니다.
이산 도마뱀

1
다른 사람이 지적했듯이 ML 엔지니어는 단순히 ML 모델을 생산에 투입하는 사람입니다. 그는 실제 예측 모델과 그 기초 수학을 깊이 이해할 필요는 없지만 이러한 모델을 유용하게 만드는 소프트웨어 도구를 마스터해야합니다. 데이터 과학자는 통계 / 수학 및 ML / AI에 대해 깊이 이해해야하며 ML 엔지니어가 사용하는 도구를 만드는 사람입니다. ML 엔지니어는 기본적으로 전문 소프트웨어 엔지니어에 더 가깝고 DS는 계산 통계에 더 가깝습니다.
Digio

답변:


55

좋은 질문. 실제로이 주제에 대해 많은 혼란이 있습니다. 주로 둘 다 새로운 일자리이기 때문입니다. 그러나 시맨틱 스에 중점을두면 작업의 진정한 의미가 분명해집니다.

사전에 사과와 사과를 비교하여 단일 주제 인 데이터에 대해 이야기하는 것이 좋습니다. 머신 러닝과 그 하위 장르 (딥 러닝 등)는 통계 이론, 데이터 수집 (DAQ), 처리 (비 머신 학습이 가능할 수 있음), 결과의 해석 등

설명을 위해 머신 러닝 엔지니어 역할을 데이터 엔지니어 중 한 사람으로 확대 할 것입니다.

과학은 실험, 시험 및 실패, 이론 구축, 현상 학적 이해에 관한 것입니다. 공학은 과학이 이미 알고있는 것에 대한 연구로, 과학을 완성시키고 "실제 세계"로 가져갑니다.

대리자를 생각해보십시오. 핵 과학자와 원자력 엔지니어의 차이점은 무엇입니까?

원자력 과학자는 원자의 과학, 원자 간의 상호 작용, 원자로부터 에너지를 얻을 수있는 레시피를 작성한 사람을 알고 있습니다.

원자력 엔지니어는 과학자의 레시피를 가져 와서 실제 세계로 옮기라는 책임을 맡고 있습니다. 따라서 원자 물리학에 대한 지식은 매우 제한적이지만 재료, 건물, 경제 및 적절한 원자력 발전소를 짓는 데 유용한 모든 것에 대해서도 알고 있습니다.

데이터 세계로 돌아 오면 여기에 또 다른 예가 있습니다. Convolutional Neural Networks (Yann LeCun)를 개발 한 사람은 데이터 과학자이며, 사진에서 얼굴을 인식하기 위해 모델을 배포하는 사람은 기계 학습 엔지니어입니다. 데이터 수집에서 .JPG 이미지 등록에 이르기까지 전체 프로세스를 담당하는 사람은 데이터 엔지니어입니다.

따라서 기본적으로 오늘날 데이터 과학자의 90 %는 실제로 데이터 엔지니어 또는 기계 학습 엔지니어이며, 데이터 과학자로서 개설 된 직책의 90 %는 실제로 엔지니어가 필요합니다. 쉬운 점검 : 인터뷰에서 발표 한 새로운 방법에 대한 논문 수가 아니라 생산에 배포 한 ML 모델 수에 대한 질문을받습니다.

대신 "Machine Learning Engineer"에 대한 발표를 보면 채용 담당자가 차이점을 잘 알고 있으며 실제로 모델을 제작할 수있는 사람이 필요합니다.


나는 핵 과학자들과 엔지니어를 생각한 적이 없다. 나는 이것이 철저한 대답이라고 생각한다. 내 경험에 적합합니다. 분석을 할 때 흰색 실험실 코트 (주피와 예쁜 그래프)와 같습니다. 엔지니어링 프로덕션 작업 (etl 및 webapp 컨테이너)을 사용하여 "손이 더러워 질"때 이상한 가장자리, 버그 및 나쁜 코드 냄새가 계속 발생합니다.
Tony

Yann LeCun은 컴퓨터 과학자가 아닙니까? 데이터 과학자는 데이터에 대한 과학적 분석을 수행하기 위해 사전 제작 된 컴퓨터 알고리즘 및 기술 (Yann LeCun과 같은 컴퓨터 과학자가 발명)을 사용하는 사람일까요? 다른 과학자들이 업무에서 컴퓨터를 이용하는 것과 같은 방법으로 데이터 내에서 숨겨진 진실을 배우기 위해 데이터를 수집하고, 정리하고, 다른 분석 기술 (플로팅, 패턴 매칭, ML 모델 등)을 결합 하는가?
Didier A.

YLC는 실제로 컴퓨터 과학자이지만 데이터 전문가입니다. CS는 너무 넓은 분야가되어 DS와 같은 모든 새로운 정의가 나왔습니다. 따라서 CS를 사용하면 실제로 판별되지 않습니다. 수백 년 전의 "물리학 자"라는 말처럼, 오늘날 그 단어는 당신이 더 잘 지정하지 않으면 (예 : 입자 P., 고체 P. 등) 실제로 누군가의 직업을 정의하지 않습니다. 그러나 어쨌든 과학자 (CS, DS, any -S)는 다른 사람의 발견 사용을 제한하는 사람이 아닙니다. 대신, 그의 임무는 이해하고 발견하는 것입니다.
Vincenzo Lavorini

진로지도 에 관한 질문에 친절하게 답변 해 주Data Engineer 시겠습니까?
STOM

"현상 학적 이해"에 대한 과학은 어떻습니까?
ubadub

10

용어가 새롭기 때문에 성가시다

'데이터 과학'분야에서 구직 중이기 때문에 여기에는 두 가지 일이 있다고 생각합니다. 우선, 일자리는 새롭고 다양한 용어에 대한 정의가 없으므로 용어를 직업 설명과 일치시키는 데 일반적으로 동의하지 않습니다. 이것을 '웹 개발자'또는 '백엔드 개발자'와 비교하십시오. 이들은 합리적으로 잘 합의되어 있고 명확한 설명이있는 두 개의 유사한 직업입니다.

둘째, 구인 게시 및 초기 인터뷰를하는 많은 사람들이 그들이 무엇을 고용하고 있는지 잘 모릅니다. 이는 중견 기업이 모집자를 고용하여 신청자를 찾도록하는 경우에 특히 그렇습니다. CareerBuilder 또는 포럼에 작업 설명을 게시하는 것은 이러한 중개자입니다. 이것은 많은 사람들이 자신의 물건을 모른다고 말하는 것이 아니며, 많은 사람들이 자신이 대표하는 회사와 직장의 요구 사항에 대해 잘 알고 있습니다. 그러나 다른 특정 직무를 설명하기 위해 잘 정의 된 용어가 없다면, 종종 직종이 성립됩니다.

이 분야의 세 가지 일반 부문이 있습니다

내 경험상 데이터 과학의 '작업 공간'에는 세 가지 일반 부문이 있습니다.

첫 번째는 데이터 과학을 가능하게하는 수학 및 계산 기술의 개발입니다. 여기에는 새로운 머신 러닝 방법에 대한 통계 연구, 이러한 방법의 구현 및 실제에서 이러한 방법을 사용하기위한 계산 인프라 구축이 포함됩니다. 고객과 가장 멀리 떨어진 부서와 가장 작은 부서입니다. 이 작업의 대부분은 대기업 (Google, Facebook 등)의 학계 또는 연구원이 수행합니다. 이것은 구글의 텐서 플로우, IBM의 SPSS 신경망 개발, 또는 다음 큰 그래프 데이터베이스의 개발을위한 것입니다.

두 번째 부서는 기본 도구를 사용하여 응용 프로그램 별 패키지를 만들어 필요한 데이터 분석을 수행합니다. 사람들은 Python 또는 R을 사용하거나 일부 데이터 세트에서 분석 기능을 빌드하기 위해 무엇이든 사용합니다. 내 경험상이 작업의 많은 부분은 '데이터 세탁'을 수행하여 모든 형태의 원시 데이터를 사용 가능한 것으로 변환합니다. 이 작업의 또 다른 큰 덩어리는 데이터베이스입니다. 필요한 타임 라인에 액세스 할 수있는 방식으로 데이터를 저장하는 방법 파악

세 번째 부서는 새로 조직되고 액세스 가능한 데이터를 분석합니다. 이것은 조직에 따라 가장 고객이 직면하는 측면입니다. 비즈니스 리더가 의사 결정에 사용할 수있는 분석을 생성해야합니다. 이것은 세 부문 중 가장 기술적 인 부분이 아닙니다. 데이터 과학이 초기 단계에 있기 때문에이 시점에서 많은 직종이 두 번째와 세 번째 부서 사이의 하이브리드입니다. 그러나 앞으로는이 두 직무 사이에보다 명확한 구분이있을 것입니다. 사람들은 기술, 컴퓨터 과학 또는 통계 기반 교육이 필요한 두 번째 직업과 일반 교육 만 필요한 세 번째 직업에서 이기게됩니다.

일반적으로 세 사람 모두 자신을 '데이터 과학자'라고 설명 할 수 있지만 처음 두 사람 만 자신을 '기계 학습 엔지니어'라고 합리적으로 설명 할 수 있습니다.

결론

당분간, 당신은 각 직업이 수반하는 것을 스스로 알아 내야 할 것입니다. 현재 나의 직업은 기계 학습을하기 위해 나를 '분석가'로 고용했습니다. 그러나 우리가 일을하면서 회사의 데이터 베이 싱이 부적절하다는 것이 분명해졌으며, 아마도 내 시간의 90 %가 데이터베이스 작업에 소비되고있을 것입니다. 내 기계 학습 노출은 이제 가장 적합한 것으로 보이는 scikit-learn 패키지를 통해 신속하게 물건을 실행하고 고객을 위해 파워 포인트 프레젠테이션을 만들기 위해 csv 파일을 세 번째 부서 분석가에게 촬영합니다.

필드가 유동적입니다. 많은 조직에서 프로세스에 데이터 과학 의사 결정을 추가하려고하지만 그 의미를 명확하게 알지 못합니다. 그것은 그들의 잘못이 아니며 미래를 예측하기가 어렵고 새로운 기술의 파급 효과는 결코 분명하지 않습니다. 현장이 더 확고해질 때까지 많은 직업 자체가 그 용어를 설명하는 데 사용되는 용어만큼이나 모호 할 것입니다.


9

[완전히 개인적인 의견]

'데이터 과학자 (Data Scientist)'라는 용어가 '통계 학자 (Statistician)'를 넘어 설 때, 그것은 큰 차이가 아니라 시원하게 들리는 데 더 가깝습니다. 마찬가지로 '딥 러닝'이라는 용어. 두 개의 레이어가 더있는 신경망 (다른 머신 러닝 알고리즘)입니다. ML이 아닌 특정 신경망을 DL이라고 할 수있는 경우를 설명 할 수있는 사람은 없다. 따라서 '데이터 과학자'라는 용어입니다.

그러나 기업이 데이터 과학에 DevOps 사고 방식을 채택함에 따라 ML 엔지니어라는 용어가 발전했습니다.

데이터 과학에 대한 DevOps 사고 방식은 무엇입니까?

여기서 모델을 빌드하고 배포하며 프로덕션 환경에서 유지 관리해야합니다. 이는 소프트웨어 팀에서 많은 마찰을 피하는 데 도움이됩니다.

[PS : DevOps는 철학과 같은 소프트웨어를 수행하는 방법입니다. 그래서 그것을 그것을 지정으로 사용하면 다시 혼동됩니다].

ML 엔지니어는 시스템 엔지니어링, ML 및 통계의 미묘한 차이를 분명히 알고 있어야합니다.

모호한 일반화는 데이터 엔지니어 + 데이터 과학자 = ML 엔지니어입니다.

그러나이 공간의 명칭은 날마다 모호 해지고 있으며 '통계 학자'라는 용어는 점점 더 관련성이 높아지고 있습니다 (아이러니!).


2
머신 러닝은 단순한 신경망 그 이상이며 (예를 들어, 모든 종류의 트리 기반 분류자를 고려하십시오) "딥 러닝이 단지 몇 개의 레이어를 가진 머신 러닝"이라는 것을 보지 마십시오.
S. Kolassa-복직 모니카

@StephanKolassa 그래. 동의하다. 너무 많이 일반화해서는 안됩니다 :) 지적 해 주셔서 감사합니다.
Dawny33

1
(+1) 그러나 "통계 학자"가 더 관련성이 있다고 생각하지 않는 것은 단지 아이러니 일뿐입니다. 요즘 "운영 연구원"은 어디에 있습니까? ;)
usεr11852는

7

회사마다 다를 수 있지만 데이터 과학자 로 지정되어 왔으며 일반적으로 데이터에서 지식과 통찰력을 추출하기위한 것 입니다.

데이터 과학자들이 하는 것을 보았습니다

  • 이미지 처리 및 이미지 인식 알고리즘 작성
  • 비즈니스 유스 케이스에 대한 의사 결정 트리를 설계하고 구현하십시오.
  • 또는 단순히 일부 보고서를 설계 및 구현하거나 데이터 변환을위한 ETL을 작성하십시오.

데이터 과학은 , 그러나,의 슈퍼 도메인입니다 기계 학습

수학, 통계, 정보 과학 및 컴퓨터 과학의 광범위한 분야, 특히 기계 학습, 분류, 클러스터 분석, 불확실성 정량화, 계산 과학, 데이터 마이닝, 데이터베이스, 그리고 시각화 .

기계 학습 엔지니어 는 고용주가 이미

  • 접근, 접근법, 진입, 가까이가는 길, 친근 책, 착륙 진입, 닥치다, 가까이 가다, 다가 가다, 접근시키다, 착수하다, 연구하다, 다가오다, 가깝다,들이 닥치다,
  • 도구,
  • 그리고 거친 모델 (제공 대상)

머신 러닝을 사용하여 데이터에서 지식 또는 통찰력을 추출 하는 것은 머신 러닝 알고리즘을 설계 및 구현하여 동일한 것을 제공하는 것 입니다.


5

머신 러닝 엔지니어와 엔지니어링 중심의 데이터 과학자는 동일하지만 모든 데이터 과학자가 엔지니어링에 집중하는 것은 아닙니다. 약 5 년 전, 거의 모든 데이터 과학자는 엔지니어링에 중점을 두었습니다. 예를 들어 생산 코드를 작성해야했습니다. 그러나 이제 Jupyter 노트북에서 재생, 데이터 이해, 예쁜 그래프 만들기, 고객, 관리자, 분석가에게 설명하는 등 대부분의 데이터 과학자 역할이 있습니다. 이들은 엔지니어링을 수행하지 않습니다. 저는 기계 학습 엔지니어라는 용어가 이것이 공학적 입장임을 강조하기 위해 생겨 났다고 생각합니다.


2

TL; DR : 누가 요청하는지에 따라 다릅니다.

이 질문에 대한 답은 요구하는 사람의 기대, 지식 및 경험에 크게 좌우됩니다. 비슷한 답을 가진 유사한 질문은 다음과 같습니다.

소프트웨어 개발자, 소프트웨어 엔지니어 및 컴퓨터 과학자의 차이점은 무엇입니까?

일부 사람들, 특히 컴퓨터 공학 및 소프트웨어 공학을 공부하거나 가르치는 사람들에게는이 분야들 사이에 큰 차이가 있습니다. 그러나 일반 HR 직원, 기술 채용 담당자 또는 관리자에게있어 이들은 모두 "컴퓨터 직원"입니다.

나는 Vincent Granville의이 인용구를 좋아 한다 .

내 경력 (1990 년경)에서 나는 위성 이미지에서 패턴 (또는 호수와 같은 모양 또는 특징)을 식별하고 이미지 분할을 수행하기 위해 이미지 원격 감지 기술을 연구했습니다. 통계, 그러나 내 고향 대학 옆의 컴퓨터 과학 부서에서 똑같은 일을하는 사람들은 그들의 연구 인공 지능이라고 불렀습니다. 오늘날에는 데이터 과학 또는 인공 지능 으로 불리며 하위 도메인은 신호 처리, 컴퓨터 비전 또는 IoT입니다.


1

기계 학습은보다 구체적이며 현장에서 다음을 마스터해야합니다.

  • 기능 대 레이블
  • 테스트 데이터와 교육 데이터
  • 기능 정규화
  • 일반적인 데이터 구조 (배열의 배열)
  • 기능 선택

0

나는 주어진 답변에 동의하지 않습니다. 그러나 나는 거의 모든 대답에서 영광을 얻고있는 데이터 과학자의 역할이 있다고 생각합니다. 이러한 답변의 대부분은 "엔지니어가 모델을 작성하고 배포하는 것"의 효과에 대해 말합니다. 잠깐만 기다리십시오 –이 두 단계 에는 많은 작업이 있습니다!

데이터 과학자에 대한 나의 핵심 정의는 과학적 방법을 데이터 작업에 적용하는 사람입니다. 그래서 저는 끊임없이 가설, 테스트 설계, 데이터 수집 및 테스트 실행, 교차 검증 결과 확인, 새로운 접근법 시도, 데이터 변환 등을 생각하고 있습니다. 기본적으로 "모델을 작성하고 배포하는 것"입니다. "전문적인 환경에서.

그래서, 당신의 대답을 위해, 나는 "악마가 세부 사항에 있습니다"라고 생각합니다. 왜냐하면 당신은이 단계들 / 조건들 중 일부에 대해서만 글로스를 할 수 없기 때문입니다. 또한 구직 활동을하는 경우에는 "데이터 엔지니어"와 "데이터 과학자"가 상당히 다른 급여 규모를 가질 수 있으므로주의해야합니다. 데이터 엔지니어 급여에 대한 데이터 과학자가되기를 원하지 않습니다!

나는 항상 데이터 과학자로 자신을 내 놓았고, 회사에 예측 모델 (분석적 일뿐 아니라)에서 작업하고 있으며 Excel 기수가 아니라고 말합니다. 프로그래밍 언어 (R, Python 등)로 작성합니다. 두 가지를 모두 수행 할 수있는 입장을 찾으면 데이터 과학자가되는 길에 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.