통계 및 빅 데이터 reproducible-research

2

p- 해킹 ( "데이터 준설" , "스누핑"또는 "낚시")이라는 문구 는 결과적으로 인위적으로 통계적으로 유의미한 다양한 종류의 통계적 과실을 말합니다. "더 중요한"결과를 얻는 방법에는 여러 가지가 있습니다. 패턴이 발견 된 데이터의 "흥미로운"부분 집합 만을 분석하는 것 ; 다중 테스트 , 특히 사후 테스트에 적합하게 조정하지 못하고 수행되지 않은 테스트를보고하지 않은 경우; …

94 hypothesis-testing statistical-significance p-value model-selection reproducible-research

15

R을 사용하여 재현 가능한 연구에 대한 실질적인 예

질문 : 온라인에서 무료로 이용할 수있는 R을 사용한 재현 가능한 연구 의 좋은 예가 있습니까? 이상적인 예 : 구체적으로 이상적인 예는 다음과 같습니다. 원시 데이터 (및 이상적으로 데이터를 설명하는 메타 데이터) 데이터 가져 오기, 처리, 분석 및 출력 생성을 포함한 모든 R 코드 최종 출력물을 최종 문서에 연결하기위한 스 웨브 …

71 r references reproducible-research

8

기존 변수와 정의 된 상관 관계를 갖는 랜덤 변수 생성

시뮬레이션 연구를 위해 기존 변수 와의 미리 정의 된 (인구) 상관 관계를 나타내는 임의의 변수를 생성해야합니다 .YYY I는 들여다 R패키지 copula와 CDVine소정 의존성 구조 랜덤 변수 분포를 생성 할 수있다. 그러나 결과 변수 중 하나를 기존 변수에 고정 할 수 없습니다. 기존 기능에 대한 아이디어와 링크를 부탁드립니다! 결론 : 서로 …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

3

'재생 가능한 연구'를 어떻게 정의하고 있습니까?

이것은 지금 몇 가지 질문으로 제기되었으며, 나는 무언가에 대해 궁금해하고 있습니다. 원래 데이터의 가용성과 문제의 코드에 중점을 두어 "재현성"으로 필드 전체를 이동 했습니까? 나는 항상 재현의 핵심이 필자가 언급했듯이 실행을 클릭하고 동일한 결과를 얻는 능력은 아니라는 점을 항상 배웠다. 데이터 및 코드 접근 방식은 데이터가 정확하다고 가정하는 것 같습니다. 데이터 …

50 reproducible-research philosophical

8

사람들이 데이터를 더 잘 관리하도록하려면 어떻게해야합니까?

직장 에는 매우 다양한 분야의 직원이 있으므로 다양한 형태로 데이터를 생성합니다. 결과적으로 각 팀은 데이터 저장을위한 자체 시스템을 개발했습니다. 일부는 Access 또는 SQL 데이터베이스를 사용합니다. 일부 팀 (내 공포)은 거의 전적으로 Excel 스프레드 시트에 의존합니다. 종종 데이터 형식이 프로젝트마다 다릅니다. 어떤 경우에는 그것을 '시스템'이라고 부르는 것이 너무 친절합니다. 이것이 수반하는 …

42 dataset reproducible-research quality-control

5

p- 값은 본질적으로 쓸모없고 사용하기에 위험합니까?

NY Times 의이 기사 " Odds, 지속적으로 업데이트"가 제 관심을 끌었습니다. 간단히 말해서, 그것은 [Bayesian statistics]는 2013 년 해안 경비대가 누락 된 어부 John Aldridge를 찾기 위해 사용한 것과 같은 검색을 포함하여 복잡한 문제에 접근하는 데 특히 유용하다는 것을 증명하고 있습니다 (지금까지 말레이시아 항공 370 호를 찾지 못했습니다). ...... 베이지안 …

36 hypothesis-testing statistical-significance bayesian p-value reproducible-research

6

연구의 장기 재현성을 높이는 방법 (특히 R과 Sweave 사용)

상황 : 재현 가능한 연구에 대한 이전 질문에 대한 답으로 Jake는 JASA 아카이브를 작성할 때 발견 한 한 가지 문제점은 CRAN 패키지의 버전 및 기본값이 변경되었다는 것입니다. 따라서 해당 아카이브에는 사용한 패키지 버전도 포함됩니다. 사람들이 패키지를 변경하면 비 네트 기반 시스템이 작동하지 않을 수 있습니다 (패키지 내에 패키지 내에 추가 …

31 r reproducible-research project-management

3

데이터 분석의 모범 사례에 대해 배우려면 github을 팔로우해야 할 사람은 누구입니까?

전문가의 데이터 분석 코드를 연구하는 것이 도움이됩니다. 나는 최근에 github 에 대해 잘 알고 있으며 많은 사람들이 데이터 분석 코드를 공유하고 있습니다. 여기에는 몇 개의 R 패키지 (물론 CRAN에서 직접 구할 수 있음)뿐만 아니라 특히 R을 사용하는 재현 가능한 연구의 몇 가지 예도 포함됩니다 (github의이 R 목록 참조 ). 데이터 …

28 r reproducible-research

2

합성 데이터 세트를 생성하기위한 표준 사례는 무엇입니까?

컨텍스트 : 매우 큰 데이터 세트로 작업 할 때 예측 변수와 반응 변수 간의 관계 또는 예측 변수 간의 관계를 "알고있는"합성 데이터 세트를 작성할 수 있는지 묻는 경우가 있습니다. 수년에 걸쳐, 나는 일회성 합성 데이터 세트 (특별한 방식으로 조리 된 것처럼 보임) 또는 연구원이 제안한 모델링 방법에 특히 유리한 구조화 …

26 modeling reproducible-research synthetic-data

4

검토 자로서 저널이없는 경우에도 요청 데이터 및 코드를 제공 할 수 있습니까?

과학은 재현 할 수 있어야하므로 정의에 따라 데이터와 코드가 데이터와 코드 공유를 위해 Yale Roundtable에서 논의한 것처럼 재현성의 필수 구성 요소라는 인식이 높아지고 있습니다. 데이터 및 코드 공유가 필요없는 저널의 원고를 검토 할 때 데이터 및 코드를 사용할 수 있도록 요청할 수 있습니까 검토 할 때 나에게 출판 당시 공개적으로 …

23 dataset validation reproducible-research journals

1

정서 분석에 단락 벡터를 사용한보고 된 최신 성능이 복제 되었습니까?

Le and Mikolov 의 ICML 2014 논문 " 문장 및 문서의 분산 표현 "의 결과에 깊은 인상을 받았습니다 . "문단 벡터"라고 부르는 기술은 word2vec 모델의 확장을 기반으로 임의로 긴 단락 / 문서의 감독되지 않은 표현을 학습합니다. 이 문서는이 기술을 사용하여 감정 분석에 대한 최신 성능을보고합니다. 나는 전통적인 단어 분류 표현의 …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

1

Sweave 및 xtable을 사용하여 컬러 테이블을 만드는 방법은 무엇입니까? [닫은]

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . Sweave 및 xtable 을 사용하여 보고서를 생성하고 있습니다. 테이블에 약간의 색상을 추가하고 싶습니다. 그러나 xtable을 사용하여 컬러 테이블을 생성하는 방법을 찾지 못했습니다. 다른 …

17 r reproducible-research

1

연구에서 검증 정확도는 높지만 테스트 정확도는 낮 으면 어떻게해야합니까?

기계 학습 연구의 유효성 검사에 대한 특정 질문이 있습니다. 아시다시피, 머신 러닝 체제는 연구원들에게 훈련 데이터에 대한 모델을 훈련시키고 검증 세트에 따라 후보 모델 중에서 선택하고 테스트 세트에 대한 정확성을보고하도록 요청합니다. 매우 엄격한 연구에서 테스트 세트는 한 번만 사용할 수 있습니다. 그러나 논문을 출판하거나 제출하기 전에 테스트 정확도가 최신 결과보다 …

15 machine-learning cross-validation reproducible-research

3

공개적으로 사용 가능한 데이터에 대한 호스팅 옵션

따라서 재현 가능한 연구 아이디어를 지원하기로 결정하고 사람들이보고 사용할 수 있도록 온라인에서 데이터를 사용할 수있게하려고합니다. 문제는 어디에서 호스팅합니까? 내 첫 번째 성향은 물론 대학 서버에있는 개인 웹 공간이지만, 실제로는 그렇게 오래 지속되지는 않습니다. 떠나면 디렉토리가 사라지기 전에 매우 짧은 시간 동안 열려 있습니다. 향후 사람들이 사용하고 작업 할 수 있도록 …

12 reproducible-research

4

통계적 의의에 대한 현재 토론의 의미

지난 몇 년간, 여러 학자들은 "연구자 자유도"라고 불리는 과학적 가설 테스트의 해로운 문제를 제기했습니다. 이는 과학자들이 분석 중에 p- 값 <5 %로 찾기를 향한 선택의 여지가 많다는 것을 의미합니다. 이러한 모호한 선택은 예를 들어 어떤 경우를 포함해야하는지, 어떤 경우는 이상으로 분류되어 어떤 것이 나타날 때까지 수많은 모델 사양을 실행하고 null …

10 hypothesis-testing inference philosophical reproducible-research social-science

«reproducible-research» 태그된 질문