저는 프로그래머입니다. 어떻게 데이터 과학 분야에 들어가나요?


13

우선이 용어는 너무 모호하게 들립니다.

어쨌든 .. 나는 소프트웨어 프로그래머입니다. 내가 코딩 할 수있는 언어 중 하나는 Python입니다. 데이터 말하기 SQL을 사용할 수 있고 데이터 스크랩 핑을 수행 할 수 있습니다. 내가 지금까지 알아 낸 것은 많은 과학 기술 자료에 대한 많은 기사를 읽었습니다.

1- 통계

2- 대수

3- 데이터 분석

4- 시각화.

5- 기계 학습.

내가 지금까지 알고있는 것 :

1- 파이썬 프로그래밍 2- 파이썬에서 데이터 폐기

전문가가 저를 안내하거나 이론과 실용성을 모두 정리할 수있는 로드맵을 제안 할 수 있습니까? 나는 약 8 개월의 기간을 스스로에게주었습니다.


"들어가고 싶은"내용을 구체적으로 적어주십시오. 현장뿐만 아니라 어떤 수준에서도. 예를 들어 "전문 의료 텍스트 광부"또는 "아마추어 천체 물리 우주 조사관"
Pete

나는 회사가 데이터를 파고 그것에 대한 통찰력을 얻기 위해 연락 할 수있는 컨설턴트 또는 직원으로 일할 수있는 무언가가 되려고합니다.
Volatil3

(1) 기계 학습에 관한 Andrew의 Ng 과정; (2) 데이터 학습에 관한 Yaser Abu-Mostafa 과정; 둘 다 접근 가능하며 (시간은 포함되어 있지 않음) 이해 수준을 높일 수 있습니다.
Vladislavs Dovgalecs


데이터 과학이라는 용어는 매우 광범위합니다. 어쩌면 어떤 종류의 직업을 원하고 어떤 회사에서 일하고 싶은지 그들의 요구 사항과 책임을 볼 수 있습니다. 그러면 직업이 기대와 능력의 격차를 충족시키는 지 알 수 있습니다. GOOGLE의 데이터 과학자 요구 사항은 다음과 같습니다. ! [구글의 데이터 과학자 요구 사항 ( i.stack.imgur.com/5KSN6.png )
Octoparse

답변:


18

기술 습득에 집중하지 않고 경험 습득에 더 집중하십시오. 실제로 일부 문제를 해결하고 github에 작업을 게시하십시오. 그 과정에서 더 많은 것을 배우고 고용주에게 지식과 경험을 보여줄 수있을 것입니다. 이는 주제 나 이론에 대한 깊은 이해를 갖는 것보다 훨씬 가치가 있습니다.

데이터 과학은 요즘 꽤로드 된 분야이므로 특정 작업을 구체적으로하고 싶지는 않지만 기계 학습이 그 구성 요소라고 가정하면 kaggle.com을 시작하는 것이 좋습니다. 목표 측면에서 pandas / numpy / scipy의 데이터로 작업 할 수 있고 sci-kit에서 모델을 작성하고 seaborn, ggplot 또는 matplotlib에서 예쁜 그래프를 만들면 아무런 문제가 없습니다. 기술 관점에서 볼 때, 특히 자신의 능력을 보여줄 코드 샘플과 예제가있는 경우. 문제가 발생하면 stackexchange에서 답변을 받거나 질문을 게시하면 곧 답변을받을 수 있습니다. 일단 당신이 생계를 위해 일을하고 있다면, 당신을 멘토하는 선임 팀원으로부터 더 많은 것을 배우게 될 것입니다.

행운을 빌어 요.


7

나는 데이터 과학에 버클리 코스를 좋아하고, 데이터 과학에 좋은 기초와 맛을 줄 것입니다. 따라서 프로그래밍 기술이 있다면 수학 및 통계와 많은 시각화가 필요합니다. 또한 전체 스크립트를 작성하고 테스트 한 후 (anaconda는 설치 및 작업하기 쉽습니다) 모든 단계 (시각화)를 수행하는 것이 필수적이기 때문에 IPython에 익숙해지는 것이 좋습니다. 코스는 다음과 같습니다. bcourses.berkeley.edu/courses/1267848/wiki 또한 SAS에서 무료로 제공하는 통계 : 통계 1 : 분산 분석, 회귀 및 로지스틱 회귀 소개 support.sas.com/edu/schedules.html ? ctry = us & id = 1979

ML로 시작하는 것이 좋습니다 : www.kaggle.com/c/titanic/details/getting-started-with-python

왼쪽에는 피벗 테이블을 사용하는 Excel과 R이 있습니다. DataCamp는 R을 사용하는 방법에 대한 자습서를 발표했습니다.이 단계를 완료하면 경험을 쌓는 데 더 많은 경쟁이 kaggle (샌프란시스코 범죄 분류를 위해 최근에 공개 된 경쟁)에 도달하게됩니다. www.dataschool.io의 놀라운 비디오 자습서

그것이 도움이되기를 바랍니다 ...


답변 주셔서 감사합니다. 어떻게 배웠어요?
Volatil3

1
책, 온라인 자습서 및 데이터 재생과 관련된 코드에 대한 많은 실습. kaggle.com을 통해 경쟁을 통해보십시오. ML을 배우기 시작하는 데 좋습니다.
n1tk

궁극적으로 데이터 과학자 커뮤니티를 찾고 프로젝트에 참여하려고하면 책에서 배울 수없는 것에서 프로젝트에 대해 많은 경험을 공유하게됩니다.
n1tk

그러나 나는 통계, 수학 등과 같은 이론에 능숙하지 않다. 나는 Uni 시절에 그것들을 연구했다
Volatil3

나는 학교로 돌아가고 분석 및 데이터 과학에서 박사 과정으로 옮길 것을 고려한 특별한 경우입니다 ... 미적분학 1,2, 선형 대수, 숫자 선형 대수, SAS, R, 빅 데이터에 대한 수학, 그래프 이론과 훨씬 더 ...
n1tk

5

진정한 데이터 과학자 인 데이비드 (David)에 동의하지 않는 것은 올바른 이유로 기계 학습 알고리즘을 사용하는 방법을 알고 코딩하는 응용 통계 학자입니다. 통계는 모든 데이터 과학의 기초입니다. "케이크"그 자체입니다. 다른 모든 것은 착빙입니다.

문제는 어떤 종류의 데이터 과학자가되고 싶습니까? Scipy를 사용하고 자신이 데이터 과학자라고 생각하는 Kaggle Script Kiddie (알고리즘 또는 기술을 적용 할 방법, 이유,시기 및시기에 대한 지식)의 주제가되고 싶습니까?

1-통계

2- 그 밖의 모든 것


2
당신이 무슨 말을하는지 잘 모르겠습니다. 나는 "적용된 통계"를 아는 것이 중요하지 않다고 말한 적이 없다. 나는 단순히 방법을 적용한 경험을 얻는 것이 방법 자체에 대한 이론적 지식을 얻는 것보다 더 중요하다는 구별을했다.
David

1
데이빗, 그건 내 의견이 맞지 않았다 방법 자체에 대한 이론적 지식이 없으면 단순히 스크립트 키드 일뿐입니다. 경험은 중요하지만 이론적 지식의 부산물이며 다른 방식은 아닙니다.
숨겨진 마르코프 모델

2
아닙니다. 응용 경험과 이론 지식 사이에는 큰 차이가 있으며, 업계와 교실에서 얻는 것의 차이가 종종 있습니다. 예를 들어, 정규화의 이론적 토대를 아는 것보다 교차 검증과 같은 적용된 방법을 사용하여 모델이 과적 합하지 않은지 효과적으로 검증하는 방법을 아는 것이 더 중요합니다. 또한 "script kidies"에 대한 언급을 중단하십시오. kaggle의 새롭고 끔찍한 원 클릭 투 투 제출 기능을 사용하는 사람은 아무도 없습니다.
David

1
당신이 말하는 것이 사실이라면, 왜 회사는 단순히 학사를 가진 사람들보다 박사 학위와 석사 학위를 가진 사람들을 선호합니까? 알고리즘을 구동하는 기술에 대한 이론적 지식을 가지고 있기 때문입니다. 그들은 엔진 빌더 그 자체입니다. 이론적 지식은 더 깊은 지식입니다. Kaggle은 스크립트 키드를위한 저장 탱크입니다.
숨겨진 Markov 모델

1
두 사람 모두 만들려고하는 점을 볼 수는 있지만 상황에 맞지 않는 것 같습니다. 원래 질문은 '프로그래머가 어떻게 데이터 과학 분야의 직업으로 전환 할 수 있는가?'였습니다. 응답이 '모든 것을 버리고 통계에서 PH.D를 얻는 데 몇 년을 보낸 다음 직접 프로젝트를 수행 한 다음 적용을 시작하십시오.'라는 것은 꽤 번거로운 장애물이며 실제적으로 방해하지 말라고 말할 수도 있습니다. 감각. 반대로, Stats PHD (또는 Masters)의 수와 찾고있는 사람들의 수를 고려할 때 고용주는 학위없이 경험을 보여줄 수있는 사람들을 고려할 수 있습니다.
chrisfs

4

진정한 지식을 가진 실용적인 사람이 되려면 수학 (미적분, 확률 + 통계, lelinear algebra)으로 시작하십시오. 모든 단계에서 프로그래밍으로 모든 것을 구현하려고하면 파이썬이 좋습니다. 좋은 기반을 얻으면 실제 데이터로 게임하고 문제를 해결하십시오.

과정. 선형 대수-edx Laff 또는 행렬 코딩 Stat-edx stat 2x Barkley Calculus-읽기 ... 간단한


2

데이빗은 좋은 지적을 가지고 있습니다. 나는 여러분의 관심을 더 이끌어내는 것이 무엇이든에 집중할 것을 제안합니다. 모든 노력에서 성공할 수있는 유일한 방법입니다. 멋진 무언가를 만들고 싶다면 시작하십시오. 당신도 좋은 책을 읽고 싶다면. 출발점은 중요하지 않습니다. 며칠 전에 당신은 당신이 원하는 것과 다음에해야 할 일에 대해 더 잘 이해할 것입니다.


1

데이터 과학은 매우 광범위하며 여기에는 여러 가지 경로가 있습니다. 일반적으로 예를 들어 4 가지 또는 5 가지 유형으로 나뉩니다.

여기에 이미지 설명을 입력하십시오

이 주제의 다른 게시물에서 Applied Statistics 배경 (적절한 알고리즘 적용), 프로그래밍 배경 (Kaggle 참여) 및 다른 사람들이 비즈니스 배경에 적용하는 사람들을 볼 수 있습니다

정통한 회사는 프로그래밍이 왜곡 된 사람을 "데이터 엔지니어"라고 언급 할 수 있습니다. 대기업도 데이터 과학 팀에 각 유형을 사용하므로 우수한 T 형 기술을 시연하는 것이 좋습니다.


0

프로그래머라면 의사 결정 트리 분류기로 시작하여 엔트로피 및 정보 게인의 수학적 이해에 중점을 둘 수 있습니다. ML은 단지 데이터 압축에 관한 것임을 이해해야합니다.

실용적인 과정의 가치에 대한 다른 답변들에 크게 동의하지 않습니다. ML에 가장 유용한 것은 수학입니다 : 수 이론, 선형 대수 및 확률 이론.

수학에 중점을 두지 않는다면, 배우는 유일한 것은, 마술을 위해 라이브러리를 사용하는 방법입니다. 그것은 기계 학습이 아니라 과학이 아닙니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.