숙련 된 개발자를위한 통계로 시작하는 곳


47

2015 년 상반기 동안 저는 기계 학습 과정 (GREAT 과정 Andrew Andrew)을 수행했습니다. 기계 학습의 기본 사항 (선형 회귀, 로지스틱 회귀, SVM, 신경망 ...)을 배웠습니다.

또한 나는 10 년 동안 개발자 였으므로 새로운 프로그래밍 언어를 배우는 것은 문제가되지 않습니다.

최근에 기계 학습 알고리즘을 구현하기 위해 R 학습을 시작했습니다.

그러나 나는 계속 배우고 싶다면 통계에 대한 공식적인 지식이 필요하다는 것을 깨달았습니다. 현재는 비 형식적인 지식이 있지만 너무 제한적입니다. 더 좋을 것입니다 (일반적으로 R-square를 사용하는 경향이 있지만 분명히 좋은 생각은 아닙니다).

그래서 나에게 통계의 기본 사항을 배워야한다는 것이 분명합니다 (나는 그것을 공부했지만 대부분을 잊어 버렸습니다). 어디서 배워야합니까? 나는 완전히 포괄적 인 과정이 필요하지 않습니다. 한 달 안에 내가 충분히 알고 알 수 있기 때문에 열망하고 더 배울 수 있습니다 :).

지금까지 " 눈물없는 통계 "에 대한 다른 제안 을 읽었 습니까?


2
통계 : Casella, G. 및 RL Berger (2002) : Staxtical Inference, Duxbury. 계량 경제학 : Hayashi, F. (2000) : 계량 경제학, Princeton University Press. 다른 관점으로 : stats.stackexchange.com/questions/91863/…
Guilherme Salomé

references태그를 추가했습니다 . 해당 주제에 대한 첫 페이지의 조회 를 스캔 할 수 있습니다 .
Glen_b

3
나는 이것이 폐쇄되어야한다는 것을 알지 못한다. 그러나 CW로 만들기위한 논쟁이 있습니다.
gung-Monica Monica 복원

2
내 관점에서 볼 때, 확률 이론을 아는 사람없이 통계를 배우기 시작하면 지식이 편향 될 것입니다.
Metariat

2
하나의주의 단어를 추가하고 싶습니다. 나는 당신이 이것을 어느 정도 이해하고 있다고 생각하지만, 나는 단지 그것을 말하고 싶습니다. 저는 MD / PhD 학생입니다. 내 MD 학위와 함께, 내과를 연습 할 계획입니다. 박사 학위를 위해 생물 통계학을 공부하고 있습니다. 한 달에 의학을 습득 할 수있는 것보다 한 달에 통계를 습득 할 수 없다는 것을 알고 싶습니다. 나는 당신이 통계를 배우는 것을 방해하려고 결코 아닙니다. 정반대로, 나는 당신이 그것을 장엄하게 이해하기를 바랍니다. 그러나 예를 들어 개발자가 되고자하는 것보다 덜 복잡하다는 것을 이해하십시오.
Vincent Laufer

답변:


26

나는 그것에 대해 어떻게하는지에 대한 기본적인 로드맵을 제안 할 것이다 :

보너스:

이러한 로드맵을위한 훌륭한 사이트는 Metacademy 이며, 저는 개인적으로 웹상 에서 최고의 데이터 과학 리소스 중 하나로 보증합니다.

Gitxiv 는 데이터 과학에 관한 Arxiv 연구 논문과 관련 오픈 소스 구현 / 라이브러리를 연결하는 또 다른 아름다운 사이트입니다.


2
OP는 이미 Ng의 과정을 밟았으므로 처음부터 질문을하게되었습니다.
Aksakal

4
@ Aksakal 나는 그것을 알아 차렸다. 그러나 로드맵의 일부로 포함 시켰습니다. 실제로 차이를 만들지 않기 때문에이 게시물을 읽는 다른 사람들에게 도움이 될 것이라고 생각했습니다.
Dawny33

12

Think Stats 또는 Think Bayes 를 체크 아웃 했습니까? 프로그래머와 관련한 많은 파이썬 코드가 포함 된 (무료) 통계 책입니다.

또한 R 학습에 관심이 있다면 CRAN 에는 R사용하여 확률 및 통계 소개 와 같이 체크 아웃하려는 많은 무료 PDF 파일이 있습니다 . 많은 사람들이 정말로 좋아 하는 R 을 사용 하는 Coursera 코스 도 있습니다 ( 이 교과서 를 사용 하십시오. 체크 아웃하고 DataCamp 에 대한 실습을 원할 수도 있습니다 ).

또한 몇 가지 통계 주제를 정리하려면 Khan Academy 에서 몇 개의 비디오를 항상 볼 수 있습니다 .


나는 Think Stats와 Think Bayes를 좋아하지만 코드를 통해 작업을 수행하는 데 유리한 많은 공식 통계 이론을 피합니다. 주제를 직관적으로 파악하는 데는 좋지만 목표가 기본 이론을 이해하는 것만으로는 좋지 않습니다.
Marius

@ 마리우스 : 네가 무슨 뜻인지 알아. 그러나 그는 이미 프로그래머이기 때문에 자신이 찾고있는 것보다 더 작을 수있는 "작고 간단하며 빠른 것"을 원하는 것처럼 보였기 때문에 생각하고있었습니다.
Steve S

8

먼 과거에도이 목록의 문제를 해결할 수 있다면 적용된 통계를 "적절하게" 연구해야합니다 . 간단한 2 단계 알고리즘을 드리겠습니다.

먼저 확률 이론으로 속도를 올리십시오. 훌륭한 책이 많이 있습니다. 내가 가장 좋아하는 것은 Feller 의 고전 서적 입니다. 그것은 "소개"라고 불리지 만 제목에 속지 마십시오. 가고 싶은만큼 깊지 만 표면을 훑어보고 싶다면 아주 잘 작성되고 간단합니다.

두 번째 단계는 통계입니다. 다시, 많은 훌륭한 책들이 있습니다. 내가 사용한 것을 Gujarati "Basic Econometrics", Fourth Edition의 훌륭한 인트로 텍스트를 사용하겠다. 계량 경제학은 경제학에 적용되는 통계 입니다. 참고로, 누구나 10 년 안에 데이터 과학자가 가장 섹시한 직업이 될 것이라고 생각한 사람 은 버클리 경제학자 Hal Varian입니다. 많은 기계 학습 자료는 기본 통계, 회귀 등을 기반으로합니다.이 책에서 다루는 모든 내용을 다 읽을 필요는 없으며 원하는 순서대로 챕터를 선택할 수있는 방식으로 작성되었습니다.

Ng의 수업이이 텍스트를 읽는 동안 빠르게 채워진 후에 얼마나 많은 틈이 남아 있는지에 놀랄 것입니다.

실무자로서이 두 단계 후에 이론이 너무 많이 필요하지 않습니다. 이 분야의 책을 특별히 읽는 ML 기술을 계속 배울 수 있습니다. 확률과 통계를 시작하는 데 너무 깊이 들어 가지 않는 것이 중요합니다. 먼저 ML 코드를 작성하고 간격을 메우십시오.


4

모두 대학원 통계 프로그램에 거의 보편적으로 사용되는 Casella & Berger를 추천합니다. 나쁜 참고 서적은 아니지만 첫 4-5 장을 스캔하는 것 이상을 확신하지 못합니다. "통계", 즉 데이터 분석을 탐구하기 전에 Neyman-Pearson 유형 테스트를 구성하는 방법에 대한 이론이 필요하다고 생각하지 않습니다.

대신 학습 방법에 중점을 둘 것입니다. 저의 대학원 프로그램 은 빈번한 테스트에 Applied Linear Statistical Methods 를 사용했으며 꽤 포괄적 인 참고 자료이지만 자체 교육 관점에서 가장 접근하기 쉬운 책이 아닐 수도 있습니다. 책을 읽는 것보다 더 많은 예를 통해 더 넓은 개요를 볼 수 있기 때문에 MIT 또는 코스 라의 코스 하나 또는 그 이상의 코스를 시작하는 것이 더 좋습니다.

Bayes의 경우, 내가 가장 자주 사용하는 책은 강아지 그림과 함께 제공되는 Doing Bayesian Data Analysis입니다 (분명히이 책은 다른 베이지안 입문 교과서보다 우수합니다). 나는이 책을 직접 사용해 본 적이 없지만, 그 책을 훑어 보았는데, 그것은 Bayesian 통계에서 두 클래스 후에 다소 이해할 수없는 것을 발견 한 Gelman의 책보다 훨씬 나아 보인다-설명은 끔찍하다.


1
C & B의 첫 5 개 챕터는 실제로는 통계가 아니며 배경과 비슷합니다. 통계의 개념은 6 장의 시작 부분에서 다룹니다! 요컨대, 학습 방법은 아마도이 특정 사람을 도울 수 없을 것입니다. 통계를 적용하고 이해하지 못하는 데 도움이 될 것입니다. 이것이 그가 필요한 것입니다. 그가 수학 교육을 발전 시켰다면 아마도 어느 정도 그것을 건너 뛸 수 있지만, 그의 대답은 현재 ML의 기초를 이해할 수 없다는 것을 암시합니다 ... 그는 그의 수학이 제한적이라고 제안합니다 (적어도 나에게). C & B는 시작하기에 좋지 않은 장소가 아닐 수도 있습니다.
Vincent Laufer

1
그것들은 통계가 아닐 수도 있지만, 어떤 종류의 모델링을 수행하기 위해서는 확률 분포에 대한 배경이 필수적입니다. 예를 들어 베르누이 분포와 그 특성이 무엇인지 알아야 로지스틱 회귀를 이해할 수 있습니다. 나는 여전히 C & B를 가끔 언급하지만, 내가 그 책을 사용한 수업 이외의 6 장 이외의 것을 사용한 적이 없다고 생각합니다.
srvanderplas

1
나는 당신이 말한 것에 동의하지만 그것은 중요한 점 대신에 침략과 관련이 있습니다. 이것은 처음에 침략을 추가하는 나의 잘못입니다. 어쨌든 주요 요점은 여러 다른 사람들이 제안했듯이 OP가 실제로해야 할 일은 이론적 수학과 통계를 더 잘 이해하는 것입니다. 포스트에서 더 많은 통계 테스트를 적용하는 데 도움이 필요하다는 것을 나타내는 곳은 없습니다. 그는 그렇게 할 수 있습니다. 그는 그들을 더 깊이 이해하기를 원합니다. 이를 위해 C & B는 응용 프로그램 중심의 준비에 대해 더 많은 것을 배우는 것보다 낫습니다.
Vincent Laufer

3

이것은 완전한 대답이 아니며 단지 제안 일뿐입니다. 통계 (기초)에 대해 더 알고 싶다면 다음을 읽을 수 있습니다.

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

이 책은 통계학자를위한 매우 표준적인 책이며 흥미로운 결과가 많이 있습니다. 이론의 모든 증거를 다룰 필요는 없지만 결과에 더 안전하다고 느끼기 위해 몇 가지 연습을 원할 수 있습니다.

계량 경제학 (데이터 모델)에 대한 자세한 내용은 다음을 참조하십시오.

Hayashi, F. (2000): Econometrics, Princeton University Press

다른 누군가가 실제로 당신이 요청한 것과 비슷한 것을 물었고 좋은 대답을 얻었습니다. "Casella & Berger"다음에해야 할 일 .

또한,이 책들을 정말로 읽고 자한다면,이 계량 경제학 강의 계획서는 무엇을 읽을 지 (CB & Hayashi)와 읽을시기에 대해 아주 좋은 방향과 속도를 줄 수 있습니다.


제안에 감사드립니다. 그러나 여러분이 언급 한 첫 번째 책은 약 660 페이지입니다.
후안 안토니오 고메즈 Moriano

3
Casella와 Berger는 통계 이론 의 덩어리를 제공 하지만 데이터 분석에 대해서는 거의 배우지 않을 것입니다.
Glen_b

1
@JuanAntonioGomezMoriano 얼마나 작습니까? 나는 항상 통계 로 시작 하는 방법에 대한 팬이었습니다 .
icc97

(-1) 통계에 대한 수학적 또는 이론적 접근을 선호하는 사람에게는 OP가 요청한 것과 거의 반대되는 완벽한 선택처럼 들립니다.
Gala

1
그는 통계에 대한보다 "공식적인"지식과 기본 지식이 필요하다고 말했다.
Guilherme Salomé

2

CRC Press의 Richard McElreath의 R과 Stan의 예제가 포함 된 베이지안 코스 : 통계적 재검토 : 원래 질문 이후 나온 새로운 책을 제안하고자합니다 .

잘 작성되었으며 베이지안 접근 방식을 사용합니다. 매우 대화식이며 문제를 해결하고 싶거나 중간에 빠져 길을 잃을 수도 있습니다.

그것은 매우 기본적으로 시작하여 다단계 모델로 끝나며, 통계 지식이 있지만 통계에 익숙하지 않은 상당히 진보 된 과학자를 대상으로합니다. 그래서 나는 그것이 초보자의 책이라고 정확하게 말할 수는 없지만 아주 간단하게 시작되며 멋진 호와 스타일을 가지고 있습니다.

제목의 "스탠"부분은 일반적인 베이지안 샘플링 도구입니다. 기본적으로 C ++로 자동 컴파일 된 다음 실행 파일로 컴파일되는 프로그래밍 언어입니다. (Bayesian 추론은 대안과 달리 일반적이므로 일반 도구를 사용할 수 있습니다.)


1

당신에게 도움이 되기에는 너무 늦었을지라도 나는 후손을 위해이 대답을 던질 것이라고 생각했습니다. Larry Wasserman의 All Of Statistics 는 머신 러닝, 기타 학문 분야 또는 공식 통계 훈련을받지 않은 수학자, 즉 현재 상황과 거의 같은 사람들을위한 과정으로 고안되었습니다. 공식적인 통계가 부족한 몇몇 친구와 저는 대학원생을 대상으로 자율 학습 그룹을 구성했습니다. 나는 그 경험으로부터 정말로 혜택을 받았다고 생각합니다.

Wasserman이 그래픽 모델 및 부트 스트랩과 같은 일반적인 "확률 및 통계적 추론"과정 자료를 넘어서게되는 추가 주제는 특히 기계 학습에서 일하는 사람과 관련이 있습니다. 이 책은 Casella & Berger와 비교할 때 꽤 간결 할 수 있으므로 특정 부분 (특히 증거)에 대한 세부 사항이나 동기 부여를 원한다면 다른 독서 자료로 보충해야 할 수도 있습니다. 즉, 나는이 책이 많은 연습 문제로 명확하게 쓰여진 것을 발견했으며 훌륭한 빠른 참조 자료입니다.

한 달은 많은 시간이 아닙니다. 당신이 매우 공격적인 속도를 설정한다면, 당신은 확실히 한 학기 안에이 글에서 많은 것을 얻을 수 있다고 생각합니다. Ch에 의해 영향을받는 선형 모델링에 주로 관심이있는 경우 특히 그렇습니다. 13-14.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.