R을 사용하여 재현 가능한 연구에 대한 실질적인 예


71

질문 : 온라인에서 무료로 이용할 수있는 R을 사용한 재현 가능한 연구 의 좋은 예가 있습니까?

이상적인 예 : 구체적으로 이상적인 예는 다음과 같습니다.

  • 원시 데이터 (및 이상적으로 데이터를 설명하는 메타 데이터)
  • 데이터 가져 오기, 처리, 분석 및 출력 생성을 포함한 모든 R 코드
  • 최종 출력물을 최종 문서에 연결하기위한 스 웨브 또는 기타 접근 방식
  • 모두 리더 컴퓨터에서 쉽게 다운로드하고 컴파일 할 수있는 형식으로되어 있습니다.

이상적으로,이 예는 통계적 교수 예와 반대로 실제 적용 주제에 중점을 둔 저널 기사 또는 논문이 될 것입니다.

관심이있는 이유 : 특히 저널 기사 및 논문에 적용된 주제에 관심이 있습니다. 이러한 상황에서는 몇 가지 추가 문제가 발생하기 때문입니다.

  • 데이터 정리 및 처리와 관련된 문제가 발생합니다.
  • 메타 데이터 관리와 관련된 문제가 발생합니다.
  • 저널과 논문은 종종 표와 그림의 모양과 형식,
  • 많은 저널과 논문에는 워크 플로 (예 : 분석 순서 지정 방법) 및 처리 시간 (예 : 캐싱 분석 문제 등)과 관련된 문제를 발생시키는 광범위한 분석이 있습니다.

완전한 실무 사례를 보면 재현 가능한 연구로 시작하는 연구자들에게 훌륭한 교육 자료를 제공 할 수 있습니다.

답변:


14

프랭크 하렐 (Frank Harrell)은 수년 동안 재현 가능한 연구 및 보고서를 통해 드럼을 치고 있습니다. 당신은 시작할 수 위키 페이지에 게시 된 연구를 포함하여 다른 많은 자원을 나열하고 또한 찰스 게 이어의 페이지를 다룹니다.


11

저널 Biostatistics에는 재생산을위한 준 편집자 (Associate Editor for Reproducibility)가 있으며 모든 기사는 다음과 같이 표시되어 있습니다.

재현 가능한 연구

우리의 재현 가능한 연구 정책은 저널의 논문이 근거가되는 데이터를 자유롭게 이용할 수있는 경우 D로 표시하고, C는 저자의 코드를 자유롭게 사용할 수있는 경우, R은 데이터와 코드를 모두 사용할 수있는 경우, Reproducibility의 Associate Editor는이를 사용하여 논문의 결과를 재현 할 수 있습니다. 데이터와 코드는 저널의 웹 사이트에 보충 자료로 전자 출판됩니다.

http://biostatistics.oxfordjournals.org/

얼마나 좋은 생각입니까?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract 는 분석을 수행하는 보충 도구에 R 패키지와 함께 제공되며 아직 직접 시도하지는 않았습니다. 또한 개방도 등급이 지정된 곳을 찾을 수 없습니다. 몇 가지 질문으로 동료 편집자에게 이메일을 보내고 있습니다

[편집하다]

어소시에이트 편집장 인 Roger Peng은 PDF를 얻지 않고는 재현 가능한 논문을 찾을 수있는 방법이 없다고 말합니다. 그는 재현성이 뛰어나고 영화와 같은 R 등급을 가진 훌륭한 R을 가지고있는 것을 지적했습니다.

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

물론 저널 자체는 무료가 아닙니다 ... #fail

배리


1
그것은 재현성을 우선 순위로하는 저널을 보는 것이 좋습니다. R로 표시된 기사의 좋은 예를 보셨습니까?
Jeromy Anglim

1
그들은 출판을 위해 우선 순위를 정하지 않고 단지 강조하기를 원한다고 생각합니다. 예를 들어 답변을 편집하겠습니다.
Spacedman


10

나는 나의 연구 논문 페이지에 그러한 예들이있다 . (새 회원으로 둘 이상의 하이퍼 링크를 게시 할 수 없습니다. 따라서 해당 사이트의 논문 만 설명하겠습니다.)

(1) "임의 실험에서 효과 매니페스트 만들기"는 R의 비 네트 시스템을 사용합니다.

(2) "클러스터 무작위 배정 투표에 효과 부여"는 시간이 많이 걸리는 시뮬레이션이 포함 된보다 복잡한 논문이었습니다. Makefile 기반 시스템을 사용하여 Dataverse에 게시했습니다.

(3) "EDA for HLM"이 가장 빠른 시도였습니다. 여기에 방금 데이터와 관련 Sweave 파일을 tarball에 넣었습니다.

JASA 아카이브를 작성할 때 발견 한 한 가지 문제점은 CRAN 패키지의 버전 및 기본값이 변경되었다는 것입니다. 따라서 해당 아카이브에는 사용한 패키지 버전도 포함됩니다. 사람들이 패키지를 변경하면 비 네트 기반 시스템이 작동하지 않을 수 있습니다 (패키지 내에 패키지 내에 추가 패키지를 포함시키는 방법을 잘 모름).

마지막으로 R 자체가 변경 될 때 어떻게해야하는지 궁금합니다. 예를 들어 종이에 사용 된 전체 계산 환경을 재현하여 가상 머신이 크지 않은 가상 머신을 생성 할 수있는 방법이 있습니까?

어쨌든이 예제가 도움이되기를 바랍니다. 적어도 그들은이 분야에서 내 자신의 실험 중 일부를 보여줍니다.

(일반 텍스트 하이퍼 링크가 있습니다.)

  [2] : http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3] : http://hdl.handle.net/1902.1/12174
  [4] : http://hdl.handle.net/1902.1/13376

당신은 몇 가지 흥미로운 질문을 제기합니다. 나는 당신을 인용하는 별도의 질문을 게시했습니다 : stats.stackexchange.com/questions/4466/…
Jeromy Anglim

9

Koenker와 Zeileis 는 비교적 완벽한 예제를 제공하는 웹 페이지를 제공합니다. 그들은 공유한다:

  • Rnw (스 위브 코드)
  • R 분석 코드
  • 최종 PDF
  • 버전 관리 문제에 대한 토론

8

마이크로 어레이 데이터를 분석 할 때 R / 바이오 컨덕터를 사용하는 방법을 설명하는 논문을 작성했습니다. 이 논문은 Sweave로 작성되었으며 그래프를 생성하는 데 사용 된 모든 코드는 보충 자료로 포함됩니다.

Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010. BioConductor를 사용한 효모 시간 과정 마이크로 어레이 데이터 분석 : yeast2 Affymetrix arrays를 사용한 사례 연구 BMC Research Notes, 3:81.


7

Sweave 의 Charles Geyer 페이지 에는 요구 사항 중 일부를 충족하는 논문의 예가 ​​있습니다 (원시 데이터는 R 패키지에서 가져온 것이지만 R / sweave 코드 및 최종 PDF는 사용 가능합니다).

윤주성 (Yun Ju Sung)의 논문 이론에 관한 논문 인 결측 데이터 모델에 대한 몬테 카를로 가능성 추정 (preprint)에는 컴퓨팅 예제가 포함되어 있습니다. 논문의 모든 숫자와 모든 음모는 Sweave에서 수행 된 "보조 자료"문서에서 가져 왔습니다 (잘라 내기 및 붙여 넣기로 인정해야 함).

( 소스 파일 은 "용지 보충 자료"섹션에 링크되어 있습니다.)

이전에 ReproducibleResearch.net 자료 페이지 를 탐색하는 하나 이상의 R 예제를 보았지만 불행히도 북마크하지 않았습니다.


5

Simon Jackman은 "9/11 이후 10 년 후 미국인과 호주인"이라는 설문 조사 결과를 분석하는 데 특히 유용한 예를 가지고 있습니다. 테이블과 그림을 통합하는 여러 가지 예가 있습니다.

그는 이 블로그 게시물을 통해 Sweave 문서PDF 보고서작성했습니다 .

원시 데이터가 제공되지는 않지만 (실제로 Sweave 예제를 실행할 수는 없지만 Sweave 코드를 연구하면 공정한 비트를 배울 수 있다고 생각합니다.



4

또한 Journal of Statistical Software를보십시오 ; 그들은 Sweave에서 논문을 만드는 것을 권장합니다.


아니요, 공식적으로는 아닙니다. LaTeX 제출은 권장되지만 지침 페이지 를 보면 Sweave라는 단어가 포함되어 있지 않습니다. 저자는 그것을 사용하거나 R 코드를 종이와 함께 제공하지만 나에게 이것은 패키지 비 네트에 대한 Shane의 요점을 반영합니다.
Dirk Eddelbuettel

그래도 여전히 대부분의 제출자가이를 사용합니다 (저널 스타일에는 Swave.sty도 포함됨). 주요 문제는 Rnw가 게시되지 않았지만 Sweave가 작성한 논문은 Stangle 출력과 함께 제공된다는 것입니다.

4

나는 과거에 좋은 것을 발견하고 파헤 치면 게시 할 것이지만 일반적인 일반적인 제안은 다음과 같습니다.

  1. 키워드와 ext : rnw (스 위브 확장자를 가진 파일을 검색 함)로 Google을 검색하면 흥미로운 예를 찾을 수 있습니다. 검색 예는 다음과 같습니다 . 이것은 내 검색의 세 번째 결과입니다 : http://www.ne.su.se/paper/araietal_source.Rnw . : 여기 내 검색에서 또 다른 예입니다 http://www.stat.umn.edu/geyer/gdor/ .
  2. 많은 R 꾸러미에는 본질적으로 똑같은 흥미로운 비네팅이 있습니다. 예 : https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw

4

Robert Gentleman은 "복제 가능한 연구 : 생물 정보학 사례 연구" 라는 논문을 썼습니다.

R 패키지로 간단한 분석 세트를 구현하고 Sweave를 사용합니다. 또한 일반적으로 Sweave 사용에 대해 설명합니다.

사용 된 모든 파일 및 폴더의 아카이브 파일은 기사 페이지 의 "관련 파일" 섹션을 참조하십시오.

참고:

  • Gentleman, Robert (2005) "재생 가능한 연구 : 생물 정보학 사례 연구", 유전학 및 분자 생물학의 통계적 응용 : Vol. 4 : Iss. 1 조 2 항.
  • DOI : 10.2202 / 1544-6115.1034
  • http://www.bepress.com/sagmb/vol4/iss1/art2 에서 사용 가능

4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

실험실 동료의 멋진 종이. 우리의 PI는 팬 메일과 비슷한 것이 들어 왔을 때 매우 기뻤습니다. 이제 그룹의 모든 간행물에는 LaTeX / Sweave에 추가 된 보충 방법이 있습니다. 일부 논문도 마찬가지입니다 (LyX / Sweave에서 광산을 유지할 것인지 접거나 Sweave에서 보충제를 할 것인지 결정할 수 없습니다).


3

예제와 실습을 찾는 것은 배우는 좋은 방법이지만, 재현성은 기술 / 스크립트 재실행 측면뿐만 아니라 코드 스타일과 구조적 측면, 핵심 기능의 부작용 최소화 등을 언급하고 싶었습니다. Chambers의 데이터 분석 용 소프트웨어를 사용하면 R 코드 수준에서 신뢰성 및 재현성 문제를 피하는 데 도움이되는보다 심도 깊은 기술을 이해할 수 있습니다.


2

완전히 재현 가능한 분석과 종이의 훌륭한 예가 여전히 필요하다면 이 저장소를 사용 하십시오 .

@jscamac은 그의 분석을 재현 가능하게하여 훌륭한 일을 해냈으며 개인적으로 검증했습니다.

remake재현성을 보장하기 위해 패키지와 같은 R 특정 기능을 사용하는 방법을 배울 수 있습니다 .

조심 / 계산을 완료하는 데 약 1 시간이 걸립니다.

그것은 모두 스크립트로 작성되었으며 결국 그림과 함께 LaTeX 용지를 생성합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.