'재생 가능한 연구'를 어떻게 정의하고 있습니까?


50

이것은 지금 몇 가지 질문으로 제기되었으며, 나는 무언가에 대해 궁금해하고 있습니다. 원래 데이터의 가용성과 문제의 코드에 중점을 두어 "재현성"으로 필드 전체를 이동 했습니까?

나는 항상 재현의 핵심이 필자가 언급했듯이 실행을 클릭하고 동일한 결과를 얻는 능력은 아니라는 점을 항상 배웠다. 데이터 및 코드 접근 방식은 데이터가 정확하다고 가정하는 것 같습니다. 데이터 자체에 결함이없는 것으로 보입니다 (과학 사기의 경우에는 명백히 거짓 임). 또한 여러 개의 독립적 인 표본에 대한 결과의 복제 성보다는 대상 모집단의 단일 표본에 중점을 둡니다.

연구를 처음부터 복제하기보다는 분석을 다시 실행할 수있는 이유가 무엇입니까?

아래 의견에 언급 된 기사는 여기에서 볼 수 있습니다 .


좋은 질문 ! 나는 대답에 도노 호의 논문에 대한 언급을했지만, 재현 가능한 연구에 대한 당신의 서면 언급은 무엇입니까?
로빈 지라드

Reiter와 Kinney는 이번 달 역학 문제에 '연구 목적을 위해 기밀 데이터 공유 : 입문서'라는 논문 을 작성했습니다. 기밀성을 유지해야합니다.
Fomite

@EpiGrad는 "이번 달"이 지났으므로 기사 링크가 도움이 될 것입니다. 이력서 및 과학 / 데이터 분석에 기여하는 훌륭한 질문을 해주셔서 감사합니다!
gung-모니 티 복원

@gung 어떤 기사입니까?
Fomite

위의 @EpiGrad, Reiter & Kinney. +1 btw
gung-Reinstate Monica

답변:


41

재현 가능한 분석으로서의 "재생 가능한 연구"

재현 가능한 연구 는 일부 연구 영역에서 구체적으로 다음과 같은 분석을 수행하기 위해 사용되는 용어입니다.

  • 코드는 원시 데이터와 메타 데이터를 처리 된 데이터로 변환합니다.
  • 코드는 데이터에 대한 분석을 실행하고
  • 코드는 분석을 보고서에 통합합니다.

이러한 데이터와 코드를 공유하면 다른 연구원들이 다음을 수행 할 수 있습니다.

  • 원 연구원이보고하지 않은 분석 수행
  • 원 연구원이 수행 한 분석의 정확성 확인

이 사용법은 Sweave 와 같은 기술에 대한 토론에서 볼 수 있습니다 . 예를 들어 Friedrich Leisch는 Sweave의 맥락에서 "데이터 나 분석이 변경되면 보고서를 자동으로 업데이트 할 수있어 진정한 재현 가능한 연구가 가능합니다"라고 말합니다. 또한 재현 가능한 연구 에 관한 CRAN 작업보기에서 볼 수 있습니다. "재생 가능한 연구의 목표는 특정 지침을 데이터 분석 및 실험 데이터에 연결하여 장학금을보다 잘 이해하고 이해하고 검증 할 수 있도록하는 것입니다."

"복제 성"이라는 용어의 광범위한 사용법

재현성은 과학의 기본 목표입니다. 새로운 것이 아닙니다. 연구 보고서에는 데이터 생성, 처리 및 분석 방법을 간략히 설명하는 방법 및 결과 섹션이 포함되어 있습니다. 일반적으로 적절하게 유능한 연구원이 제공된 정보를 가져 와서 연구를 복제 할 수 있도록 제공된 세부 사항이 충분해야합니다.

재현성은 복제 성 및 일반화의 개념과 밀접한 관련이 있습니다.

따라서 Sweave와 같은 기술에 적용 할 때 문자 그대로 사용되는 "재생 가능한 연구"라는 용어는 커버리지보다 더 넓은 관련성을 제안한다는 점에서 잘못된 이름입니다. 또한 그러한 기술을 사용하지 않은 연구원들에게 Sweave와 같은 기술을 제시 할 때, 이러한 연구자들은 프로세스를 "재생 가능한 연구"라고 부를 때 종종 놀라게됩니다.

"재생 가능한 연구"보다 더 나은 용어

스 웨브 (Sweave)와 같은 맥락에서 사용되는 "재생 가능한 연구"는 재현 가능한 연구의 한 측면에만 관련되어 있기 때문에 대체 용어를 채택해야합니다. 가능한 대안은 다음과 같습니다.

위의 모든 용어는 Sweave와 같은 분석에 수반되는 내용을보다 정확하게 반영합니다. 재현 가능한 분석은 짧고 달콤합니다. "데이터"또는 "통계"를 추가하면 상황이 더 명확 해지지 만 용어가 더 길고 좁아집니다. 또한, "통계"는 좁고 넓은 의미를 가지며, 확실히 좁은 의미 내에서 많은 데이터 처리가 통계적이지 않습니다. 따라서 "재현 가능한 분석"이라는 용어가 암시하는 폭 은 장점이 있습니다.

재현성에 관한 것이 아닙니다

"재생 가능한 연구"라는 용어의 또 다른 문제는 Sweave와 유사한 기술이 "복제 성"이 아니라는 것입니다. 상호 관련된 여러 목표가 있습니다.

  • 재현성
    • 원시 데이터를 동일한 결과로 최종 보고서로 변환하기 위해 분석을 쉽게 다시 실행할 수 있습니까?
  • 단정
    • 데이터 분석이 연구원의 의도와 일치합니까?
    • 연구원의 의도가 맞습니까?
  • 개방 상태
    • 투명성, 책임
      • 다른 사람들이 수행 한 분석의 정확성을 확인하고 확인할 수 있습니까?
    • 확장 성, 수정 성
      • 다른 사람들이 데이터, 분석 또는 둘 다를 수정, 확장, 재사용 및 매시하여 새로운 연구 작업을 만들 수 있습니까?

확인할 수있는 분석 기록이 기록되어 있기 때문에 재현 가능한 분석이 올바른 분석을 촉진해야한다는 주장이 있습니다. 또한 데이터와 코드가 공유되면 책임을 유발하여 연구원이 분석을 확인하도록 동기를 부여하고 다른 연구원이 수정 내용을 기록 할 수 있습니다.

재현 가능한 분석은 공개 연구와 관련된 개념과 밀접한 관련이 있습니다. 물론 연구원은 Sweave와 유사한 기술을 스스로 사용할 수 있습니다. 개방형 리서치 원칙은 데이터와 분석 코드를 공유하여 재사용과 책임을 강화할 것을 권장합니다.

이것은 "재연성"이라는 단어의 사용에 대한 비판이 아닙니다. 오히려 Sweave와 같은 기술을 사용하는 것이 필요하지만 공개 과학 연구 목표를 달성하기에는 충분하지 않다는 점을 강조합니다.


2
(+1) 큰 대답, 아주 좋은 점. 나는 우리가 Sweave와 친구들이 재현 가능한 분석을 하는 것을 불러야한다는 것에 동의합니다 .
NRH

1
(+1) 멋진 개요. 그러나 '원시 데이터'라는 용어는 모호하고 오해의 소지가 있습니다. 데이터는 일반적으로 데이터를 기계로 가져 오기 위해 '원시'로 간주되는 단계 이전에 처리됩니다.
David LeBauer

@Jeromy Anglim 이것은 훌륭한 답변이며, "재생 가능한 연구"의 시맨틱에 대한 버그에 핵심이됩니다. 데이터 생성 프로세스가 완료된 후에 만 ​​발생하는 프로세스를 설명하는 데 사용됩니다. 나는 "재현 가능한 분석"이라는 용어를 용어로 좋아한다.
Fomite

+1 @Jeromy Anglim, 나는 최근에 저자에게 연락 R하여 출판물에 사용 된 코드를 공유 할 수 있는지 확인했다 . 저자는 그것을 거부하고 출판물을 가리켰다. 귀하의 의견으로는, 이것을 재현 가능한 연구에 대한 개방성이 결여 된 것으로 간주합니까, 아니면 방법론을 저널에 명시 적으로 만들고 다른 프로그램을 코드 자체로 작성하는 것으로 충분합니까? 감사
예측 자

11

실행하기 쉬운 형태로 분석을 위해 데이터와 코드에 액세스하는 것은 재현 가능한 연구가 아닙니다 . 분석이 작동하는지 확인한 후에는 원저자에 대해 회의적인 곳에서 자신의 코드 / 데이터로 대체 할 수 있습니다. 필자가 읽은 통계가 포함 된 논문의 대부분은 모호한 방법론의 적어도 일부를 가지고 있다고 말하고 싶습니다. 이러한 분석을 재현하려는 시도는 종종 실패하고 (항상 시간이 많이 걸리는) 시도이지만, 사기, 사람의 실수 또는 저자와는 다른 방식으로 이러한 모호성을 해결하는지 여부를 말하기는 매우 어렵습니다. 따라서 논문에 대한 데이터 + 코드를 가지고 있다고해서 결론을 내릴 수는 없지만 비판하거나 확장하는 것이 훨씬 쉬워집니다.

또한, "재생 가능한 연구"는 정도의 문제입니다. 따라서 재생 가능한 연구 운동은 연구가 최소 임계 값을 충족하도록 요구하는 것이 아니라 표준보다 "재생 가능한"연구를 장려하는 것으로 볼 수 있습니다. "데이터 및 코드 릴리스"는 비교적 쉽고 위협적이지 않은 단계이기 때문에 지금 유행하고 있습니다.


9

모든 것을 재실행 할 수 있다는 것은 재현 가능한 연구의 출발점입니다. 실제로 동일한 절차를 사용하고 있음을 보여줄 수 있습니다. 그 후에는 그 후에 만 ​​동료의 연구를 추구 할 수 있습니다. 다시 말해서, 엄격한 재현성은 연구가 진행되는 시간이 아니라 사람들이 동의 하는 획기적인 합의점 으로 인식되어야 한다. 더 나아가는 것이 기본적이지 않습니까?

또한 Donoho (제 2 절 "스캔들"읽기) 에 대한 논의에 따르면, 재현 가능한 연구의 목표는 주어진 코드의 견고성을 테스트하는 것입니다. 먼저 코드를 사용하여 논문에서 수행되지 않은 엄격한 수정을 수행합니다 (30 숫자의 논문은 원하지 않기 때문에 ...). 나는 문학에서 재현 가능한 연구의 개념은 강력한 강력한 랜드 마크를 갖는 아이디어를 포함한다고 생각한다. 그것은 더 나아갈 아이디어를 거의 포함하고 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.