이론과 수학에 동등한 스트레스를주는 좋은 책


10

나는 학교 시절과 대학에서 통계에 관한 충분한 코스를 가졌다. CI, p- 값, 통계적 유의성 해석, 다중 검정, 상관 관계, 단순한 선형 회귀 (최소 제곱 포함) (일반 선형 모형) 및 모든 가설 검정과 같은 개념을 공정하게 이해하고 있습니다. 나는 초기에 대부분 수학적으로 소개되었습니다. 그리고 최근에 Intuitive Biostatistics 라는 책의 도움으로 실제 개념 이론에 대한 전례없는 이해를 파악했습니다.

이제 부족한 점은 모델 맞춤 (모델에 매개 변수 추정) 등을 이해하는 것입니다. 특히, 최대 우도 추정, 일반화 된 선형 모형, 추론 적 통계에 대한 베이지안 접근 과 같은 개념은 항상 나에게 외모로 보입니다. 간단한 확률 모델이나 인터넷의 다른 (기본) 주제에서 볼 수 있듯이 충분한 예제 또는 자습서 또는 개념적으로 적합한 항목이 없습니다.

저는 생물 정보 학자이며 유전자 발현 (또는 차등 유전자 발현)을 찾기위한 원시 판독 횟수를 다루는 RNA-Seq 데이터를 연구하고 있습니다. 저의 배경에서 통계 모델에 익숙하지 않더라도 포아송 분포 가정과 음 이항 등의 이유를 파악할 수 있습니다. 그러나 일부 논문은 일반화 된 선형 모델을 다루고 MLE 등을 추정합니다. 이해해야 할 배경이 있다고 생각합니다.

내가 요구하는 것은 유용하다고 생각되는 접근법과 (a)이 개념을보다 직관적 인 방식으로 이해하는 데 도움이되는 책입니다 (엄격한 수학뿐만 아니라 수학으로 뒷받침되는 이론)입니다. 나는 주로 그것들을 적용하려고 할 때, 무엇을 이해하는지에 대해 (현재) 만족할 것입니다. 엄밀한 수학적 증거로 돌아갈 수 있습니다 ... 누군가 추천이 있습니까? 내가 요청한 주제가 실제로 책에 포함되어 흩어져 있다면 책을 두 권 이상 구입하는 것이 좋습니다.

대단히 감사합니다!


이 분야의 RNA-Seq 데이터와 통계적 문제에 대해 배울 수있는 좋은 자료를 추천 해 주시겠습니까?
Biostat

1
biostat, 웹 사이트 seqanswers.com 은 NGS에게 매우 훌륭한 자료입니다. 당신은 다른 기술과 어떻게 여기에서 일을 시작할 수 : goo.gl/NLuvJ를 이 NGS 데이터에 몇 가지 통계 문제를 설명하는 몇 가지 서류가 있습니다. 요컨대, 그것들은 (유전자 발현과 관련하여) 기술적 및 생물학적 분산 추정이다. 1) 기술적 변형을 평가하는 첫 번째 논문 중 하나 : ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq : 유전자 발현 탐지 도구 : ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders
Arun

1
많은 좋은 제안이 제공되는 것처럼 보이고 CW 중에서 "최고"를 결정하는 명백한 객관적인 표준이 없기 때문에 CW로 변환되었습니다. 독자가 많은 답변을 쉽게 투표 할 수 있기를 바랍니다. :-).
whuber

우퍼, 물론! 맞는 말이다. 커뮤니티 위키 게시물을 만들 수 있습니까? 아니면 중재자 권한이 필요합니까?
Arun

답변:


5

Frank Harrell 's Regression Modeling Strategies에 대해 바이에른이 아닌 모든 것을 찾을 수 있습니다. 나는 지식이 풍부한 사람들에게 베이지안 권장 사항을 남길 것입니다 ( Gelman, Carlin, Stern 및 Rubin 뿐만 아니라 Gilks, Richardson 및 Speigelhalter도 책장에 있습니다). 시장에 몇 가지 베이지안 생물 통계 책이 있어야합니다.

업데이트 : McCullach and Nelder (1989) 는 물론 GLM에 관한 고전적인 책입니다. 그 당시에는 획기적인 것이었지만 솔직히 지루하다고 생각합니다. 또한 잔차 진단, 제로 팽창 모델 또는 다중 레벨 / 계층 확장과 같은 이후의 추가 사항은 다루지 않습니다. Hardin과 Hilbe (2007) 는 Stata (GLM과 확장 기능이 매우 잘 구현되어있는 Hardin, Stain Corp.에서 일하면서 Harder와 Hilbe (2007))에 실린 사례 를 통해이 새로운 내용을 자세하게 다룬다. 샌드위치 견적 기).


안녕하세요 StasK, 대단히 감사합니다! 회귀 모델링에 대한 요구 사항을 충족시킬 수 있습니다. 그들은 GLM을 얼마나 커버합니까? 또한 베이지안 추론에 대한 참고 문헌은 항상 권장되는 표준 참조입니다. 당신의 의견으로는, 그들이 따르기가 얼마나 쉬운가 (레벨이 너무 높은 것처럼)? 또한 Generalized linear models 책을 보셨습니까 ? 저자 중 하나는 JA Nelder입니다. 또한 통계 모델에 대한이 책을 구매하고 싶습니다 . 이것에 대한 생각이 있습니까? 감사!
Arun

이 Freedman의 책을 보지 못했습니다. 그것은 엄밀한 측면에서 다소 가벼워 보이지만 꽤 흥미로운 것입니다. (매트릭스 대수를 사용하지 않고 회귀에 대해 이야기하지만 과학적으로 엄격한 것에 대해 매우 깊이있는 수학에 관한 책은 Angrist와 Pischke의 무해한 계량 경제학이며, 인과 관계 모델로 작업하는 경우이 책은 필수입니다.) 실제로 수학 / 통계 배경을 알지 못하므로 이러한 책이 어려운지 판단하기가 어렵습니다. 일부 베이지안 책이있을 수 있습니다. 그들은 당신이 이미 MLE과 GLM을 알고 있다고 가정하는 경향이 있습니다.
StasK

1
McCullach 및 Nelder 참조를 포함하도록 응답을 업데이트했습니다.
StasK

나는 전자 공학 engr입니다. 생물 정보 학자가되었습니다. 나는 통계 (통신 이론을위한), 확률 및 랜덤 프로세스에 대한 과정을 가졌으며, 미적분학 (약간 녹슨)과 선형 대수학에 익숙합니다. 물론 이것들은 대부분 학부 수준입니다 ... 저의 목표는 개념적으로 건전한 것입니다 (기하학적 해석, 방법에 대한 이해 및 가장 중요한 목적 등). 물론, 수학이 마음에 들지 않는다면 이 요리법과 함께 제공됩니다. 귀하의 추천에 다시 한번 감사드립니다!
Arun

3

다음 두 권의 책을 추천합니다.

  1. 생물 정보학의 통계적 방법
  2. 통계 학습의 요소

이 책들은 좋은 것들을 설명하지만 OP가 요구 한 것들을 설명하지는 않습니다.
StasK

@StasK, 위의 책에없는 것들을 설명해 주시겠습니까?
Biostat

나는 HTF에서 가르쳤으며, 그로부터 얻은 것은 기본 기능, 효과적인 자유도, 모델 선택, 올가미, 교차 검증 등에 관한 것이 었습니다. OP가 관심을 보인 MLE과 GLM은 기껏해야 전달에 언급되어 있습니다. 통계 학생이 일반적인 통계 훈련을 통해이 내용에 익숙하다고 가정하거나 CS 학생은 이진 결과 데이터에 대한 무질서한 반응으로 로지스틱 회귀 대신 SVM을 사용합니다. 베이지안 내용은 베이지안 결정 규칙이 어떤 의미에서 최적 인 정도까지만 언급됩니다. 예를 들어 MCMC 또는 활용이 없습니다.
StasK

"생물 정보학 통계 방법"책을 읽었습니까?
Biostat

@ biostat, 아니, 나는하지 않았다. 나는 생물 정보학에서 일하지 않지만 그것이 약간 다른 세계라는 것을 알고 있습니다. 그래서 나는 합리적인 추천을 할 수 없습니다. 내 생각에 GLM, GEE, 종 방향 및 생존 모델과 같은 모델을 다루는 생물 통계학의 분기는 계량 경제학과 더 공통적입니다 (따라서 단면 및 패널 데이터 모델에 대한 Wooldridge의 저서가 일부 바이오 스타트 사람들에게 권장 할 수 있습니다) 통계적 유전학, 가족 별 오류율 관리 및 데이터 마이닝보다 전문 지식 영역 인 것으로 보입니다.
StasK
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.