R, bash, Python, asciidoc, (La) TeX, 오픈 소스 소프트웨어 또는 기타 유닉스 도구를 좋아하는 사용자는 객관적인 답변을 제공 할 수 없습니다. 또한 MS Excel 또는 모든 종류의 스프레드 시트 (데이터 또는 일부를 볼 수는 있지만 다른 것)는 사용하지 않는 경우가 많으므로 토론에 긍정적으로 기여하지는 않습니다. 난 유일한 사람이 아니야
- P. Burns의 Spreadsheet Addiction .
- MS R 의 정확성과 정확성 , 2004 R 메일 링리스트에 게시
- L. Knusel, Microsoft Excel 97의 통계 분포 정확도 , 전산 통계 및 데이터 분석, 26 : 375-377, 1998. ( pdf )
- BD McCullough & B. Wilson, Microsoft Excel 2000 및 Excel XP의 통계 절차 정확도 , 전산 통계 및 데이터 분석 , 40 : 713–721, 2002.
- M. Altman, J. Gill & MP McDonald, 사회 과학자 통계 계산의 수치 문제 , Wiley, 2004. [예, pp. 12–14]
내 동료가 이전 버전과의 호환성 부족 등으로 인해 모든 매크로를 느슨하게했습니다. 다른 동료가 유전자 데이터 (80 만 개의 마커, 120 Mo에 약 700 명의 피험자 120 명)를 가져 오려고했습니다. Excel이 실패하고 메모장도 포기했습니다 ... vi로 "그것을보고"일부 sed / awk 또는 perl 스크립트로 데이터를 신속하게 다시 포맷 할 수 있습니다. 스프레드 시트의 유용성에 대해 논의 할 때 고려해야 할 다른 수준이 있다고 생각합니다. 작은 데이터 세트에서 작업하고 기본 통계 자료 만 적용하고 싶을 수도 있습니다. 그런 다음 결과를 신뢰하는 것은 전적으로 귀하의 몫입니다. 또는 항상 소스 코드를 요청할 수 있지만 NIST 벤치 마크를 사용하여 모든 인라인 프로 시저를 신속하게 테스트하는 것이 더 간단 할 수 있습니다.. 앞서 언급 한 목록을 업데이트 할 때 최신 버전의 MS Excel은 정확도가 향상 된 것으로 보이지만 실제로 는 통계를 수행하는 좋은 방법이라고 생각하지 않습니다. 통계 분석 은 9 가지 통계 소프트웨어 패키지의 신뢰성에 대한 비교 연구 인 Keeling and Pavur ( CSDA 2007 51 : 3811)를 참조하십시오.
여전히 10 또는 20 중 약 1 장 (생의학, 심리학, 정신과)에는 Excel로 만든 그래픽이 포함되어 있습니다. 때로는 회색 배경, 가로 검은 선 또는 자동 범례를 제거하지 않고 (Andrew Gelman 및 Hadley Wickham은 확실히 행복합니다. 그것을 볼 때 나). 그러나 FlowingData 의 최근 여론 조사 에 따르면 가장 일반적으로 사용되는 "소프트웨어"인 경향이 있는데, 이는 MASS R 패키지를 공동 작성했으며 패턴 인식에 대한 훌륭한 책을 쓴 Brian Ripley의 오래된 이야기를 떠올리게합니다. ) :
가장 많이 사용되는 통계 용 소프트웨어는 Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf입니다.
이제 통계를 빠르고 쉽게 얻을 수있는 방법을 제공한다고 생각하십니까? 문제는 그러한 환경에서 여전히 할 수없는 일이 있다는 것입니다 (적어도 까다 롭습니다). 부트 스트랩, 순열, 다변량 탐색 데이터 분석을 예로 들겠습니다. VBA (스크립팅이나 프로그래밍 언어가 아님)에 능숙하지 않은 한, R (또는 Matlab 또는 Python)에서 데이터에 대한 작은 작업조차 더 잘 처리한다고 생각하는 경향이 있습니다. 예를 들어 소위 data.frame). 무엇보다도, Excel은 데이터 분석가를위한 우수 사례를 장려하지는 않는다고 생각합니다 (그러나 이는 "진정"에도 적용됩니다. 데이터 처리 기록을 유지해야 할 필요성에 대해서는 Medstats에 대한 토론을 참조하십시오.문서화 분석 및 데이터 편집 ), Practical Stats 에 대한이 게시물 은 일부 Excel 함정을 비교적 잘 보여줍니다. 여전히 Excel에 적용되지만 GDoc으로 어떻게 변환되는지 모르겠습니다.
작업 공유에 관해서는 Github (또는 소스 코드의 요지 ) 또는 Dropbox (EULA가 일부 사람들을 실망시킬 수 있지만)가 매우 좋은 옵션 (수정 내역, 필요한 경우 보조금 관리 등) 이라고 생각하는 경향이 있습니다. 기본적으로 데이터를 이진 형식으로 저장하는 소프트웨어를 사용하도록 권장 할 수 없습니다. R, Matlab, Stata, SPSS로 가져올 수 있지만 내 의견으로는 알 수 있습니다.
- 데이터는 다른 통계 소프트웨어가 읽을 수있는 텍스트 형식이어야합니다.
- 분석은 재현 가능해야합니다. 즉, 분석을위한 완전한 스크립트를 제공해야하며 언제든지 다른 운영 체제에서 실행해야합니다 (여기서는 이상적인 사례에 접근합니다 ...).
- 자체 통계 소프트웨어는 승인 된 알고리즘을 구현해야하며 통계 모델링의 현재 모범 사례를 반영하도록 쉽게 업데이트 할 수있는 방법이 있어야합니다.
- 선택한 공유 시스템에는 버전 관리 및 공동 작업 기능이 포함되어야합니다.
그게 다야.