R이있는 통계에 대한 참조 서 – 존재하며 무엇이 포함되어야합니까?


25

배경

이것에 대해 많은 토론이 있기 때문에 StackExchange의 이전 트레드와 분노한 인터넷 검색으로 내 대답을 찾을 수 있다고 생각했습니다. 반나절을 사용하여 R에 대한 (생물) 통계에 대한 하나의 참조 서적을 찾으려고 노력한 후, 나는 완전히 혼란스러워하고 포기해야했습니다. 어쩌면 현재 무료로 제공되는 책보다 무료 자료가 더 나은 것일 수도 있습니다. 알아 봅시다.

인터넷은 R 언어에 대한 좋은 무료 문학으로 가득 차 있기 때문에 평범한 책에 대한 비용을 지불하지 않아도됩니다.이 책은 대부분 사무실 장식으로 사용됩니다. R 홈 사이트에는 R관련된 책이 나열되어 있으며 그 중 많은 이 있습니다. 더 정확하게 말하면 : 115. 그들 중 하나만이 " 독립형 통계 참조 서 "라는 단어로 광고됩니다 . 지금은 8 살이며 구식 일 수 있습니다. S를 사용한 Modern Applied Statistics 의 네 번째 버전 은 더 오래된 버전입니다. 는 R 도서는 종종 밖으로 씹어되어 너무 기본권장되지 때문에 참조의 부족, 가난 형식의 코드와 실수 마무리.

그러나 나는 한 권의 책을 찾고 있는데, R (보조) 과 함께 실제 통계 (첫 번째)에 대한 독립형 참조로 사용할 수 있습니다 . 책은 책장의 먼지 대신 주석, 커피 얼룩 및 기름기 많은 지문을 수집하는 내 사무실 책상에 있어야합니다. R은 훌륭한 참조 라이브러리가 있다는 것을 잊지 않고 지금까지 사용해온 무료 PDF 모음을 대체해야합니다. “ 올바른 접근 방법은 무엇입니까? ”,“ 왜? "" " 기술적으로는 어떻게 작동합니까? "는 종종 " R로 어떻게 처리합니까? " 보다 더 화끈한 질문입니다.

나는 생태 학자이기 때문에 대부분 생물 통계학에 대한 응용에 관심이 있습니다. 그러나 이러한 것들이 종종 연결되어 있기 때문에 학제 간 일반적인 참조가 가장 가치가 있습니다.

작업

그러한 책이 존재하는 경우 (의심 할 경우), 책 이름 (답변 당 하나만)과 해당 주제에 대한 참고 도서로 이름이 지정된 이유를 설명하는 짧은 검토를 제공하십시오. 이 질문은 기존 질문과 크게 다르지 않으므로 답을 위해이 트레드 를 사용하십시오. 또한 이상적인 참고 도서의 기능으로 해당 결함을 나열 할 수 있도록이 책의 결함을 나열 할 수도 있습니다.

내 질문은 R과 함께 (가장 많이 사용되는 종류의) 통계에 대한 참조 도서에 무엇을 포함해야합니까?

일부 초기 생각은 일반적인 기능을 따르고 있습니다 (업데이트하십시오).

  • 벽돌만큼 두꺼운
  • 간결하지만 이해할 수있는
  • 그림으로 채워짐 (제공된 R 코드)
  • 텍스트에서 가장 중요한 세부 사항을 설명하는 테이블 및 다이어그램을 이해하기 쉽습니다.
  • 가장 중요한 방정식을 포함하는 통계 / 방법에 대한 이해하기 쉬운 설명 텍스트.
  • 각 접근 방식에 대한 좋은 예 (R 코드 사용)
  • 광범위하고 최신 참조 목록
  • 최소 오타 수

목차

나는 통계학자가 아니고 질문에 대답하기 위해이 책이 필요하지 않기 때문에 내용에 대해 쓰는 것이 어렵다. 때문에 는 R 책은 분명 R과 통계에 대한 참고 도서가 될 예정,하지만 종종 비판, 나는 독립 실행 형 R 통계 참고 도서의 목차를위한 시작 지점으로이 책에서 목차를 복사. 추가 작업 : 목차에 대한 추가, 제안, 삭제 등을 제공하십시오.

  1. 시작하기
  2. R 언어의 필수 요소
  3. 데이터 투입
  4. 데이터 프레임
  5. 제도법
  6. 테이블
  7. 수학
  8. 클래식 테스트
  9. 통계 모델링
  10. 회귀
  11. 분산 분석
  12. 공분산 분석
  13. 일반화 선형 모형
  14. 카운트 데이터
  15. 테이블의 개수 데이터
  16. 비례 데이터
  17. 이항 반응 변수
  18. 일반화 된 부가 모델
  19. 혼합 효과 모델
  20. 비선형 회귀
  21. 트리 모델
  22. 시계열 분석
  23. 다변량 통계
  24. 공간 통계
  25. 생존 분석
  26. 시뮬레이션 모델
  27. 그래픽 모양 변경
  28. 참고 문헌 및 추가 자료
  29. 색인

앞서 말한 것은 무엇입니까?

StackExhange에는 통계 및 R 서적 제안을 요구하는 몇 가지 트레드가 있습니다. R 언어 학습을위한 서적은 통계 측면이없는 R 언어 학습 참고서에 대해 묻습니다. R 프로그래밍 기술 은 최고의 단일 제안으로 선정되었습니다. R을 사용하여 통계를 배우기 위한 책은 통계에 대한 이상적인 입문서를 요구합니다.이 책은 실제로 참고 도서와는 다릅니다. 오픈 소스 통계 교재R 을 사용하는 다변량 통계를 최상의 대안으로 평가합니다. 비 통계 과학자에게 어떤 책을 추천 하시겠습니까? 선택한 프로그램을 지정하지 않고 최상의 통계 참조 서에 대해 묻습니다.내 질문에 가장 가까운 R 점수 의 실험 설계 데이터 시뮬레이션에 대한 참조 또는 책 . 과학 프로그래밍 및 시뮬레이션 소개 R을 사용 하는 것이 여기에서 가장 권장되는 책이며 내가 찾고있는 것에 가깝습니다. 그러나이 책은 R 통계에 대한 단일 참고서로는 충분하지 않습니다.

참고 서적과 그 결함에 대한 몇 가지 제안

R in Action 은 The R Book보다 더 나은 평가를 받았지만 분명히 소개 입니다.

R을 사용한 생물 통계 학적 설계 및 분석 : 실용적인 가이드 는 아마도 내가 찾던 것에 가깝습니다. 그것은 좋은 검토 를 받았지만 분명히 이것도 많은 오타가 포함되어 있습니다. 또한이 책은 통계 설명에 중점을 두지 않고 연구원이 사용할 수있는 레시피로 통계 분석을 제공합니다.

R의 생태 모델 및 데이터 는 소개 수준을 건너 뜁니다. 이것은 "introduction"이라는 단어 가 R book list 에서 43 건의 점수를 얻는데 매우 유용 하지만 통계에 대한 참고서 뒤에 있다면 완전히 만족스럽지 않을 것입니다.

과학 프로그래밍 및 시뮬레이션 소개 R을 사용한 평가 는 매우 긍정적 인 평가 를 받았지만 데이터 시뮬레이션으로 제한됩니다.

Richiemorrisroe는 S 가 포함 된 Modern Applied Statistics가 R이 포함 된 독립형 통계 참조 서적에 충분 하다고 제안합니다 .이 서적은 탁월한 평가 ( 1 , 2 )를 받았으며 현재 타이틀에 가장 적합한 후보입니까? 가장 최신 버전은 10 년 전에 나 왔으며 프로그램 개발을 고려하면 꽤 오랜 시간입니다.

Dimitriy V. Masterov는 회귀 및 다단계 / 계층 모델을 사용한 데이터 분석을 제안 합니다. 이 책을 아직 확인하지 않았습니다.


많은 서평을 읽은 후 여기에 요구 된 완벽한 책이 아직 존재하지 않는 것 같습니다. 그러나 아마도 아주 가까운 것을 선택할 수 있습니다. 이 트레드는 통계 사용자가 기존의 최상의 참조 서적을 찾는 커뮤니티 위키 및 신규 및 기존 서적 작가가 작업을 개선하기위한 동기로 사용하기위한 것입니다.


3
좋은 리뷰를 위해 (+1)! 그러나, 당신은 당신의 자신의 질문에 자신의 질문에 대답 한 것 같습니다 ...
ocram

1
당신이 이것을 알아내는 데 너무 많은 시간을 썼다면, 당신 자신의 긴 목록과 그러한 책의 개요를 생각해 내면 그것을 작성해야 할 것입니다. 누군가가 [BLAH]에 대한 좋은 검토 논문을 요청할 때 기존 검토 논문 5 ~ 10 개에 대해 좋지 않은 점에 대해 논의 할 때 통계 및 계량 경제학 목록에 자주 제시하는 권장 사항입니다.
StasK

답변:


12

나는 개인적으로 S-Plus를 사용한 Modern Applied Statistics가 당신이 설명한 모든 상자를 체크한다고 생각했습니다. 모든 예제에는 R 코드가 있고 다른 소스에 대한 좋은 참조를 제공하며 Venables와 Ripley는 훌륭하고 간결한 설명 스타일을 가지고 있습니다. 나는 책을 자주 읽는 경향이 있고, 책을 더 많이 읽을 때마다 책을 읽는 경향이 있습니다. 물론, 마일리지가 다를 수 있습니다.


2
동의한다. 나는 R 기반의 많은 통계 서적을 가지고 있으며 MASS4는 아마도 당신이 찾고있는 것에 가장 가깝지만, "terse"는 읽을 수 없을 정도로 간결하며 대부분의 통계 지식이 필요합니다. 즉, 나는 거의 10 년 동안이 책을 가지고 있으며 계속해서 새로운 내용을 배우고 있습니다. 나는 나이가 당신을 미치게하지 않을 것입니다. 아, 그리고 나는 지금 통계 박사를하고 있습니다 :-)
Sean

또한 MASS로 돌아갔다가 참조 책으로 선호되는 것처럼 보입니다.
피터 엘리스

1998 년 MASS 버전은 2003 년과 크게 다른가요? 콘텐츠 차이가 50 파운드를 더 내기에 충분한 지 궁금합니다.
추측

6

좋은 질문에 감사 드리며 특히 모든 정보를 컴파일하십시오. 불행히도, 당신이 묘사하는 책은 존재하지 않으며, 솔직히 말해서, 존재하지 않을 수도 있습니다. 당신이 주로 원하는 것이 통계에 대한 참고서라면, 선형 모델에 관한 정말 좋은 책부터 시작하겠습니다. 나의 추천은 Kutner et al, 그것은 부피와 질량 모두에서 벽돌보다 더 큰 기준을 충족하며 매우 포괄적이고 명확하며 많은 예가 있습니다. 실제로 R 요구 사항을 제거하면 전체 목록을 거의 벗어납니다. 나는 종종 그것을 다시 참조합니다. 그러나 ~ 1500 페이지에서는 선형 모델, 즉 회귀 및 분산 분석에 대해서만 다루지 만 다른 두 가지 주제에 대한 간단한 장이 있지만 실제로 다른 책을 원할 것입니다. 다음으로, 당신이 다루어야 할 다른 기술들 (예 : 생존 분석, 공간 분석 등)에 대한 최고 수준의 통계 참고서를 얻을 것입니다. 해당 책이 예제에 R을 사용하지 않는 경우 use-R 중 하나와 같은 R 특정 책을 구할 수 있습니다. 설명서, 비 네트, R-help 메일 링리스트, StackOverflow 및 CV는 필요하지 않을 수 있습니다. R에서 올바른 방법으로 프로그래밍하는 법을 배우려면 해당 책 중 하나를 가져와야합니다. 이 시점에서 최소한 4 권의 책이 있습니다. 미안하지만, 그 방식입니다. 통계를 광범위하게 다루는 사람은 모든 것을 다루는 책이 하나도 없습니다.


5

나는 이런 책이 존재하지 않는다고 생각합니다. 필자가 가장 가깝게 생각하는 책은 회귀 및 다중 레벨 / 계층 모델을 사용하는 Gelman 및 Hill의 데이터 분석 입니다.

단점 :

  • ~ 5 살이며 사회 과학자를 목표로합니다.

  • TOC 목록에 모든 것이 없습니다 (공간적, 기본적으로 시계열에는 없음).

장점 :

  • 잘 쓰여진

  • 링크에 정오표와 목차가 있습니다.

  • 번호 매기기 목록에없는 누락 된 데이터와 같은 주요 사항을 다룹니다.

  • 총알 목록에서 대부분의 항목을 공격합니다.

  • 많은 그래프와 R 코드 (다중 레벨의 일부 버그 코드).

  • 모든 데이터 / 코드를 다운로드 할 수 있습니다.


4

나는 통계 학습의 요소를 통해 내 길을 찾고 있습니다. 이 책은 엄청나게 다양한 기술 (700 페이지 이상)을 다루지 만 각각의 접근 방식은 이론적 인 방법이 아닌 매우 실용적인 방법으로 명확하게 설명됩니다. R에 대해서는 명시 적으로 포함되어 있지 않지만 플롯과 그래프는 모두 R로 명확하게 만들어지며 CRAN에 논의 된 모든 주제에 대한 패키지가 있습니다. 저자들은 모두 R의 개발 (그리고 현대 기계 학습 기술의 공정한 덩어리)에 관여했습니다.


2
그 책을위한 R 패키지도 있습니다 : ElemStatLearn :-)
chl

3

나는 MASS4가 요청에 매우 적합하고 상당히 높은 수준의 통계적 정교화 요구를 충족시키는 데 어려움을 겪는 다른 응답자와 동일한 경험을 가지고 있다는 현재 최고 투표 응답에 동의했습니다. MASS3는 사실 첫 번째 "Rbook"이었고 그 능력에있어서 상당히 나에게 도움이되었습니다. 나는 Crawley의 "The R Book"을 샀는데, R 언어에 대한 부정확 한 설명과 통계 이론의 깊이가 부족한 것으로 보이는 일련의 예제들에 대해서는 불만족 스러웠다.

그러나 시간이 지남에 따라 Harrell의 "Regression Modeling Strategies"(RMS)가이 질문의 "생리 통계적"초점에 적합하고 깊이가 좋은 것으로 나타났습니다. R에 대한 소개 텍스트가 아닙니다. 다른 곳을 찾아야하므로 R을 사용하여 과학 프로그래밍 및 시뮬레이션 소개 중 하나를 권장합니다 [ http://www.crcpress.com/product/isbn/9781420068726] 또는 그 이름) StackOverflow의 R 게시 태그에 오랫동안 기여한 사람들이 쓴 "D for Dummies". S에 중점을 두었을 때 첫 번째 버전의 RMS 만 가지고 있지만 그 이후 Harrell은 R로 전환하여 완전히rms/HmiscR 패키지 듀오. 공간 분석이나 혼합 모델에는 해당되지 않지만 나열된 여러 도메인의 전문 분야에 대한 @gung의 제안을 충족한다고 생각합니다.


1
RMS와 MASS를 모두 추천합니다. 나는 생물 통계학은 아니지만 Harrell의 대부분의 조언은 훨씬 일반적으로 유용합니다. 나는 종종 예비 연구 학생들에게 Harrell을 읽거나 최소한 4 장을 읽도록 요구 한 다음, MASS를 좋은 일반 책으로 추천하여 종종 익숙해 지도록합니다.
Glen_b-복지 모니카

일반적인 자율 학습을 위해 저는 Cox and Hinkleys의 "이론적 통계"와 Feller의 2 권 "확률 이론 소개"를 추천합니다. 그러나 그것은 분명히이 질문의 R 부분을 다루지 않습니다.
DWin

[내가 감독하는 학생들은 그들의 작업이 상당히 많은 일에도 불구하고 통계 밖의 영역에 있습니다 ... MASS와 RMS는 Cox와 Hinkley와 Feller Vol 2보다 그들에게 더 도움이됩니다. Kendall과 스튜어트 – 제 배경에 매우 귀중했습니다.]
Glen_b-복지국 Monica

2

번역을 원한다면 ... (이것은 4,900 페이지의 이론적 인 책의 동반자 책) :

빅 R 도서

이 책 (저는 공동 저자 임)은 학부 및 대학원 수준에서 15 년 동안의 컨설팅 경험과 교육을 편집 한 것으로서 4,900 페이지에 수학 (증거)에 대한 세부 사항이 나와있는 R 자료의 예만 보여줍니다. 숫자 값 (다음 판에서 사용할 수있는 +500 페이지)으로 직접 계산하는 컴패니언 북 이 책은 또한 소프트웨어가 올바른 가치를 제공하는지 확인할 수있는 가능성을 제공하며 유럽 학교의 대학원 과정에서 일반적으로 가르치는 과목에 대해 수작업으로 또는 MS Excel로 계산하는 것보다 훨씬 재미 있습니다. 이 책의 목적은 JMP + Minitab + SPSS + SAS + MATLAB을 함께 사용하는 대신 비용없이 동일한 결과에 여러 소프트웨어 대신 하나의 소프트웨어를 사용할 수 있음을 보여주기위한 것입니다. 이 책은 또한 R의 약점 (패키지 유지 보수가 보장되지 않음)을 보여줍니다. 또한 다양한 R 포럼 및 블로그에서 매우 중요한 질문을 요약 한 것입니다. 무료이며 컬러입니다!


1
요청 된 "짧은 검토"도 제공 할 수 있습니까? 이 책을 추천하는 이유는 무엇입니까? 그것에 대해 좋은 점과 나쁜 점은 무엇입니까?
whuber

나는 공동 검토 자 중 하나입니다 ... 짧은 검토를 위해 매우 중립적이지 않습니다 ...
Vincent ISOZ

1
괜찮습니다. 귀하가 귀하의 책의 강점이라고 생각하는 것이 무엇인지, 누가 혜택을받을 것인지에 대한 특징을 알려 주셔서 감사합니다. 책과의 연결 ( 필수 ) 을 공개함으로써 독자는 귀하가하는 말을 평가할 때 독자가이를 설명 할 수 있습니다. 많은 독자들이 귀하가이 책에 대해 잘 알고 있음을 이해하고 귀하가하는 말에 감사 할 것이라고 생각합니다. 어떤 종류의 검토를 제공하지 않으면, 당신의 대답은 상대적으로 거의 관심을 갖지 않는 단순한 의견으로 강등되어야 할 것입니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.