최근 박사 학위 프로그램 통계를 졸업 한 후 지난 몇 달 동안 통계 분야에서 일자리를 찾기 시작했습니다. 내가 생각한 거의 모든 회사에는 " Data Scientist " 라는 직책을 가진 구인 광고가있었습니다 . 사실 통계학 자나 통계학 자의 직책을 보던 시절은 오래 전에 지나간 것 같았습니다 . 데이터 과학자가 통계학자인 것을 실제로 대체했거나 내가 궁금했던 제목과 동의어가 되었습니까?
글쎄요, 직업 자격의 대부분은 통계학 자의 자격으로 자격이되는 것들과 같은 느낌이었습니다. 대부분의 직업은 통계학 박사 ( ), 실험 설계 ( ), 선형 회귀 및 anova ( ), 일반화 된 선형 모형 ( ) 및 PCA ( ) 와 같은 기타 다변량 방법을 이해해야했습니다. R 또는 SAS ( ) 와 같은 통계 컴퓨팅 환경에 대한 지식뿐만 아니라 데이터 과학자처럼 들리는 것은 실제로 통계학 자의 코드 이름 일뿐입니다.✓ ✓ ✓ ✓
그러나 모든 인터뷰는 "기계 학습 알고리즘에 익숙한가?"라는 질문으로 시작되었습니다. 종종 빅 데이터, 고성능 컴퓨팅, 신경망 관련 주제, CART, 벡터 머신 지원, 나무 부스팅, 감독되지 않은 모델 등에 관한 질문에 답하려고 노력해야한다는 것을 알게되었습니다. 통계 문제를 염두에 두었지만 모든 인터뷰가 끝날 때 나는 데이터 과학자가 무엇인지에 대해 점점 아는 것처럼 느끼지 못했습니다.
통계 학자이지만 데이터 과학자입니까? 나는 과학적인 문제에 대해 연구하므로 과학자 여야합니다! 또한 데이터로 작업하므로 데이터 과학자 여야합니다! Wikipedia에 따르면 대부분의 학자들은 나와 동의 할 것입니다 ( https://en.wikipedia.org/wiki/Data_science 등)
비즈니스 환경에서 "데이터 과학"이라는 용어의 사용이 급증했지만 많은 학자와 언론인은 데이터 과학과 통계를 구분하지 않습니다.
그러나 데이터 과학자 입장에서 이러한 모든 면접을 진행할 때 통계적인 질문을하지 않는 이유는 무엇입니까?
마지막으로 인터뷰를 한 후에 저는 좋은 과학자가하기를 원했고이 문제를 해결하기 위해 데이터를 찾았습니다 (저는 데이터 과학자입니다). 그러나 나중에 수많은 Google 검색을 수행 한 후 데이터 과학자의 정의를 다시 한 번 파악하는 것처럼 느끼기 시작했습니다. 데이터 과학자에 대한 많은 정의가 있기 때문에 데이터 과학자가 무엇인지 정확히 알지 못했습니다 ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http : // www -01.ibm.com/software/data/infosphere/data-scientist/ )하지만 모두가 내가 하나가되고 싶다고 말한 것 같습니다.
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- 등 ... 목록은 계속됩니다.
마지막 날, 제가 알아 낸 것은 "데이터 과학자 란 무엇입니까"라는 대답은 매우 어려운 질문입니다. 도대체 Amstat에는이 질문에 대한 답변을하기 위해 두 달이 걸렸습니다.
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
글쎄, 지금은 데이터 과학자가되기 위해서는 통계학자가되어야하지만 교차 검증 된 커뮤니티가 약간의 빛을 비추어 데이터 과학자가되는 것이 무엇을 의미하는지 이해할 수 있기를 바랍니다. 모든 통계학자가 데이터 과학자가 아닙니까?
(편집 / 업데이트)
나는 이것이 대화를 강화시킬 것이라고 생각했다. 방금 미국 통계 협회 (American Statistical Association)로부터 Microsoft와 데이터 과학자를 찾고있는 직업에 관한 이메일을 받았습니다. 다음은 링크입니다 데이터 과학자 위치는 . 위치의 역할이 우리가 이야기 한 많은 특정 특성에 영향을 미치기 때문에 이것이 흥미 롭다고 생각하지만 많은 통계에서 매우 엄격한 배경이 필요하고 아래에 게시 된 많은 답변과 모순된다고 생각합니다. 연결이 끊어지면 Microsoft가 데이터 과학자에게 찾는 자질은 다음과 같습니다.
핵심 직무 요구 사항 및 기술 :
분석을 사용한 비즈니스 도메인 경험
- 대규모의 실제 비즈니스 데이터 세트에서 고급 분석을 사용하여 복잡한 비즈니스 문제 및 솔루션을 개념화하기 위해 중요한 사고 기술을 활용하는 데있어 여러 관련 비즈니스 영역에서 경험이 있어야합니다.
- 응시자는 독립적으로 분석 프로젝트를 실행하고 내부 고객이 조사 결과를 이해하고 비즈니스에 도움이되는 조치로 변환 할 수 있어야합니다.
예측 모델링
- 예측 모델링에서 산업 전반의 경험
- 중요한 관계를 이끌어 내고 시스템 범위를 정의하기 위해 고객과의 비즈니스 문제 정의 및 개념 모델링
통계 / 경제
- 연속적이고 범주적인 데이터를위한 탐색 적 데이터 분석
- 기업 및 소비자 행동, 생산 비용, 요소 수요, 개별 선택 및 기타 기술 관계에 대한 구조 모델 방정식의 사양 및 추정
- 연속적이고 범주적인 데이터를 분석하는 고급 통계 기법
- 예측 모델의 시계열 분석 및 구현
- 여러 변수 문제에 대한 지식과 경험
- 모델 정확성을 평가하고 진단 테스트를 수행하는 기능
- 통계 또는 경제 모델을 해석하는 기능
- 개별 이벤트 시뮬레이션 및 동적 시뮬레이션 모델 구축에 대한 지식과 경험
자료 관리
- 데이터 변환을위한 T-SQL 및 분석 사용 및 매우 큰 실제 데이터 세트에 대한 탐색 적 데이터 분석 기술 적용에 익숙
- 데이터 중복성, 데이터 정확도, 비정상 또는 극단적 인 값, 데이터 상호 작용 및 결 측값을 포함한 데이터 무결성에주의를 기울입니다.
커뮤니케이션 및 협업 기술
- 어려운 비즈니스 문제에 대한 혁신적인 솔루션을 연구 할 가상 프로젝트 팀과 독립적으로 작업 할 수 있습니다.
- 파트너와 협력하고 비판적 사고 기술을 적용하며 엔드 투 엔드 분석 프로젝트를 추진합니다.
- 구두 및 서면의 탁월한 의사 소통 기술
- 다양한 이해 관계자들이 소비 할 수있는 형태의 분석 결과 시각화
소프트웨어 패키지
- 고급 통계 / 경제 소프트웨어 패키지 : Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- 데이터 탐색, 시각화 및 관리 : T-SQL, Excel, PowerBI 및 동등한 도구
자격:
- 최소 5 년 이상의 관련 경험이 필요합니다.
- 양적 분야의 대학원 학위가 바람직합니다.