Casella & Berger 이후에 무엇을 배워야합니까?


22

저는 응용 수학에 대한 배경 지식이없는 순수한 수학 대학원생입니다. 지난 가을부터 나는 Casella & Berger의 책에서 수업을 들었고,이 책에서 운동 문제의 페이지 수백 (230+)을 마쳤습니다. 지금 나는 10 장에 있습니다.

그러나 통계학을 전공하지 않았거나 통계학자가 될 계획이 없었기 때문에 데이터 분석을 계속 배우기 위해 정기적으로 시간을 투자 할 수는 없다고 생각합니다. 지금까지의 경험에 따르면 통계학자가 되려면 다양한 분포 (Weibull, Cauchy, , ...) 와 관련된 많은 지루한 계산이 필요합니다 . 기본 아이디어는 단순하지만 기술 (가설 테스트의 LRT)과 같은 구현은 기술적으로 인해 여전히 어려울 수 있습니다.에프

이해가 정확합니까? 좀 더 진보 된 자료를 다룰뿐만 아니라 실제 데이터 분석이 필요한 경우 도움을 줄 수있는 확률과 통계를 배울 수있는 방법이 있습니까? 내가 지출해야합니다 내가 사용처럼에 주당 20 시간을?

수학 학습에있어 왕도는 없다고 생각하지만 종종 실제 데이터에 대한 분포가 무엇인지 알지 못하는 경우가 종종 있습니다. 따라서 우리는 다양한 분포의 분포에 독점적으로 초점을 맞추는 목적이 무엇입니까? ? 표본 크기가 작고 중심 한계 정리가 적용되지 않는 경우 분포를 알 수없는 경우 표본 평균 및 분산 외에 데이터를 어떻게 올바르게 분석 할 수 있습니까?

학기는 한 달 안에 끝날 것이며 박사 연구에 집중하기 시작한 후에 지식이 증발되는 것을 원하지 않습니다. 그래서 물어보기로했습니다. 나는 R을 배우고 있으며 프로그래밍 배경이 있지만 레벨은 코드 원숭이와 거의 같습니다.

답변:


24

데이터 분석을 계속 배우기 위해 정기적 인 시간 투자를 할 수 없을 것이라고 생각합니다

Casella & Berger는 데이터 분석 방식으로 데이터를 많이 배울 수있는 곳이라고 생각하지 않습니다 . 통계 이론의 도구를 배울 수있는 곳입니다.

지금까지 통계로 알려주는 경험은 다양한 분포 (Weibull, Cauchy, t, F ...)와 관련된 많은 지루한 계산을 견뎌야합니다.

통계 학자로서 데이터 분석을하는 데 많은 시간을 보냈습니다. 거의 지루한 계산을하는 일은 거의 없습니다. 때로는 약간의 간단한 대수가 필요하지만 일반적인 문제는 일반적으로 해결되므로 매번 복제하는 데 노력을 기울일 필요가 없습니다.

컴퓨터는 모든 지루한 계산을 수행합니다.

합리적인 표준 사례를 가정 할 준비가되지 않은 상황 (예 : GLM을 사용할 준비가되지 않은 상황) 인 경우 일반적으로 다른 분포를 가정 할 정보가 충분하지 않으므로 계산 문제는 LRT는 일반적으로 헛소리입니다. (필요할 때 할 수 있습니다. 이미 해결되었거나 흥미롭게 전환되는 경우가 거의 없습니다).

나는 많은 시뮬레이션을하는 경향이있다. 또한 종종 파라 메트릭 가정과 함께 또는 어떤 형태로 리샘플링을 사용하려고합니다.

예전처럼 주당 20 시간 이상을 소비해야합니까?

그것은 당신이 무엇을하고 싶은지, 얼마나 빨리 당신이 그것을 얻고 싶어하는지에 달려 있습니다.

데이터 분석은 기술이며 실습과 많은 지식 기반이 필요합니다. 이미 필요한 지식이 있습니다.

다양한 일에 능숙한 사람이 되려면 시간이 많이 걸리지 만 대수와 카셀라와 버거 운동을하는 것보다 훨씬 재미 있습니다.

내가 구축 한 기술 중 일부는 회귀 문제가 시계열에 도움이된다고 말하지만 많은 새로운 기술이 필요합니다. 따라서 잔차 그림과 QQ 그림을 해석하는 방법을 배우는 것이 편리하지만 PACF 그림에서 약간의 충돌에 대해 얼마나 걱정해야하는지 알려주지 않고 한 걸음 앞서 예측을 사용하는 것과 같은 도구를 제공하지 않습니다. 오류.

예를 들어, 일반적인 감마 또는 weibull 모델에 대해 ML을 합리적으로 수행하는 방법을 알아 내려는 노력을 기울일 필요가 없습니다 . 왜냐하면 이미 편리한 형태로 들어간 문제를 해결할 수있을 정도로 표준이기 때문입니다.

당신이 온 경우 연구를 , 당신은 더 많은 기술이 필요합니다 당신은 Casella & 버거 (그러나 심지어 기술의 그런 종류로, 당신은 또한 하나 이상의 책을 읽어야한다) 같은 장소에서 픽업.


몇 가지 제안 된 사항 :

아무 것도하지 않아도 회귀 기술을 확실히 구축해야합니다.

꽤 훌륭한 책들이 많이 있지만 아마도 Draper & Smith 응용 회귀 분석 과 Fox 및 Weisberg 응용 회귀 분석대한 동료 ; 또한 Harrell의 회귀 모델링 전략을 따르는 것이 좋습니다.

(Draper와 Smith를 대신하여 여러 권의 좋은 책을 대신 할 수 있습니다. 자신에게 맞는 1-2 가지를 찾으십시오.)

두 번째 책에는 읽을 가치가 많은 온라인 추가 장이 많이 있습니다 (및 자체 R 패키지).

-

좋은 제 2 서빙은 베너 블스 & 리플리의 것 S와 현대 응용 통계 .

그것은 상당히 광범위한 아이디어에 대한 근거입니다.

일부 주제에서 더 기본적인 자료가 필요할 수도 있습니다 (배경 지식은 모르겠습니다).

그런 다음 베이지안 통계, 시계열, 다변량 분석 등 원하는 통계 영역에 대해 생각하기 시작해야합니다.


6

반대의 관점 (Stats PhD student)에서 내 충고는 회귀 교과서를 통해 작업하는 것입니다. 이것은 경험이 전혀없는 탄탄한 이론적 배경을 가진 사람에게는 자연스러운 출발점이 될 것입니다. 부서 외부의 많은 대학원생들이 회귀 과정을 시작한다는 것을 알고 있습니다.

좋은 것은 Sanford Weisberg의 Applied Linear Regression 입니다. 나는 그것이 네 번째 버전에 있다고 생각합니다. 비교적 저렴한 이전 버전을 찾을 수 있습니다.

http://users.stat.umn.edu/~sandy/alr4ed/

이 교과서에 대한 좋은 점 중 하나는, 특히 R에 대한 상대적인 경험이 없다면, 위의 링크를 통해 사용할 수있는 R 입문서입니다. 이 책에서 수행 된 모든 것을 재생성하기에 충분한 지침을 제공합니다. 이런 식으로 R 프로그래밍이 부족하지 않고 실제로 회귀를 배울 수 있습니다 (GLM의 일부에 추가하여).

R에 대한 포괄적 인 소개를 원한다면 Fox와 Weisberg의 An R Companion to Applied Regression을 통해 더 잘 봉사 할 수 있지만 프로그래밍보다 통계를 배우는 것처럼 들립니다 (두 가지를 별도로 생각할 수있는 경우).

당신의 시간 약속에 관한 한, 나는 당신이이 교과서 나 자료가 지나치게 어렵다고 생각하지 않습니다. Casella-Berger와 달리, 증거 나 도출 방법은 그리 많지 않습니다. 일반적으로 매우 간단합니다.

따로, 온라인 주위에 떠 다니는 해결책이있는 것처럼 보이거나 어떤 시점에 있었기 때문에 책을 통해 문제를 시도하고 해결책을 확인하며 속도를 높일 수 있습니다.


4

나는 통계학자가되기 위해 로터리 방식으로 노력하고 있지만, 나는 주로 양적, 방법 론적 관심을 갖는 심리학자입니다. 심리 측정 작업을 올바르게 수행하기 위해 수동으로 계산하는 것을 꿈꾸지 않는 고급 (심리학자를위한) 방법을 연구했습니다 (어떻게 알지는 않을 것입니다). 지난 10 년 동안 R 패키지 프로그래머의 모든 노력을 통해 이러한 방법이 얼마나 편리하고 편리해 졌는지 놀랐습니다. 메서드 당 20 시간 미만으로 사용하는 방법을 배운 새로운 방법으로 실제 분석을 수행하고 있습니다. 게시 할 준비가 될 때까지 새로운 방법에 많은 시간을 할애 할 수 있습니다. 그것을 사용하여 결과,하지만 확실히 내가처럼 진보를 만들기 위해 아르바이트 공부를 할 필요가 없습니다. 시간을 찾을 때 할 수있는 일을하십시오. 필요하지 않다면 전혀 추구하지 않는 것이 아닙니다.

나는 확실히 배포판 가족은 물론 어떤 주제에도 전념하지 않았다. 나는 정직하고 선량한 통계학자가 너무 좁게 공부할 것이라고 의심한다. 나는 지난 주 동안 몇 차례에 걸쳐 하루에 한 시간 정도 이론적 분포를 다루었 다. 실제 데이터 애플리케이션에 유용하다는 것을 증명하기에 충분했습니다. 내가 알 수있는 한, 아이디어는 배포판을 엄격하게 분류하는 데별로 중요하지 않습니다. 이론과 유사한 분포 형태를 인식하고이를 사용하여 적절한 분석을 결정하고 기본 역학을 이해하는 데 도움이됩니다. " 이론, 적합 또는 다른 것을 기반으로 분포를 선택하는 것이 더 낫습니까? "에 대한 가장 최근의 답변에 대해 비슷한 생각을 공유 했습니다.

당신은 말했다하지 않은 것을 당신은 내가 당신의 가상 최악의 시나리오였다 맡기 무엇에 수행 할 분석,하지만 오류를 샘플링 모든 분석의 감도를 연구하는 방법이 있습니다. CLT가 적용되지 않는 경우 방법을 알고 있는지 물어볼 수있는 몇 가지 통계 질문이 있습니다. 비모수 적 방법은 일반적으로 분포에 대한 가정이 매우 제한적이므로 모집단 분포의 모양에 대한 사전 지식이 반드시 큰 문제는 아닙니다.

일반적으로 지식이 모든 것을 빨리 또는 완전히 증발시키는 것은 아니지만, 사용하지 않으면 자유롭게 회상하기가 더 어려워집니다. 몇 년 전에 공부 한 주제를 공부해야 할 경우에도 여전히 인식 우위를 훨씬 더 오래 유지할 수 있습니다. 계속 배우십시오! R은 여가 시간을 투자하기에 좋은 장소입니다. 그것은 당신의 순수한 수학에도 도움이 될 것입니다 : " PowerPoint와 함께 사용할 수있는 최고의 오픈 소스 데이터 시각화 소프트웨어 "에 대한 최근 답변 중 또 다른 하나를보십시오 .


3

나는 2019 년에 이것을 우연히 발견했다. 나의 2 센트.

저는 다양한 종류의 데이터 분석을하는 경향이있는 통계 교수입니다 (그래서 통계를 선택했습니다!). 실용적인 지식을 얻으려면 James, Witten, Hastie 및 Tibshirani "Statistical Learning 소개"를 추천합니다. 심지어이를 기반으로 한 MOOC도 있습니다. 이 책은 많은 "실제 데이터"예제를 사용하며 R 기반이기도합니다.


"통계 학습의 요소"를 넘어 제안 할 것이 있습니까? 나는 지금이 책에 대해 잘 알고 있다고 생각한다.
Bombyx mori

2

나중에이 질문에 온 다른 사람들을위한 대답…


실제 데이터 분석

데이터베이스 (SQL), dplyr / pandas, 유닉스 도구 (sed, grep), 스크래핑, 스크립팅, 데이터 정리 및 소프트웨어 테스트를 배웁니다. 다양한 특수 배포판은 업계에서 거의 가치가 없습니다.

Angrist & Pischke, Faraway 또는 Weisberg와 같은 적용 회귀 책은 더 실용적인 종류의 이론이 될 것입니다.

대부분의 경우 우리는 실제 데이터에 대한 분포가 무엇인지 알지 못하므로 다양한 분포 제품군에 독점적으로 초점을 맞추는 목적은 무엇입니까?

따라서 비모수 통계에 관심이 있습니다. 그러나 동시에 가정이없는 비모수는 너무 느슨합니다. 귀하의 질문에 대답하기 위해 전문 가족은 당신이 접할 수도있는 간단한 질문에 대한 답변으로 생각할 수 있습니다. 예를 들어 가우시안을 "매끄러운"점 추정치라고 생각합니다. 푸아 송은 또 다른 간단한 질문에 대답합니다. 사람들이 수학적 모델을 만들 때이 특별한 점은 유용한지지 점이 될 수 있습니다. (그러나 학계는 종종 마스터 배포에 대한 퀘스트를 잘못 취합니다.)

OP : 박사 연구에 재미 있기를 바랍니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.