일부는 Google 문서 스프레드 시트를 사용하여 통계 작업을 수행하고 다른 사람과 공유합니까?

대부분의 사용자는 Google 문서 도구가 여전히 기본 도구라고 생각합니다. Matlab 또는 R이 아니며 Excel조차도 아닙니다. 그러나 브라우저의 작동 기능 만 사용하는 (그리고 매우 다르게 작동하는 많은 브라우저와 호환되는)이 웹 기반 소프트웨어의 힘에 당황합니다.

이 포럼에서 활동중인 Mike Lawrence는 Google 문서 도구를 사용하여 아주 멋진 작업을 수행하면서 스프레드 시트를 공유했습니다. 필자는 개인적으로 Google 문서 도구의 Excel에서 처음 수행 된 매우 철저한 가설 테스트 프레임 워크 (여러 매개 변수 및 비모수 테스트 포함)를 복제했습니다.

Google 문서 도구를 사용해 보시고 흥미로운 응용 프로그램의 한계에 도달 한 적이 있다면 관심이 있습니다. Google 문서와 관련하여 발생한 버그 나 결함에 대해서도 듣고 싶습니다.

이 질문에 대한 답변은 "커뮤니티 위키 용"으로 지정하고 있습니다. 그것은 무엇보다 설문 조사입니다.

software computational-statistics

— 개탄 사자
소스

Mike Lawrence가 제공 한 스프레드 시트에 링크 할 수 있습니까?

— Andy W

여기에 URL의입니다 spreadsheets.google.com/... 그것은 자신의 질문에 관련이 stats.stackexchange.com/questions/2956/...은

— Sympa

Google 문서는 공식적으로 테스트했을 때 대부분의 통계 계산에서 비참하게 수행되었습니다. 참조 Kellie B. 킬링와 로버트 J. Pavur (2011) : 스프레드 시트 소프트웨어의 통계 정확도, 미국의 통계 학자, 65 : 4, 265-273

— whuber

답변:

Google 스프레드 시트의 주요 용도는 데이터를 수집 한 다음 R로 쉽게 가져 오는 데 Google 양식을 사용하는 것입니다. 다음은 반년 전에 내가 쓴 글입니다.

Google 스프레드 시트 + Google 양식 + R = 분석을위한 데이터 수집 및 가져 오기

또한 공동 작업중인 경우 내 선택 도구는 DropBox입니다. 나는 몇 달 전에 그것에 관한 게시물을 썼습니다 :

DropBox를 사용하여 컴퓨터 간 파일 동기화

나는 지금 5 명의 공동 저자가있는 프로젝트에서 약 반년 동안 그것을 사용하고 있으며, 귀중한 가치를 지니고 있습니다. 기사의 동일한 .docx 파일).

두 게시물 모두 비디오 자습서 및 구두 지침을 제공합니다.

— 탈 갈릴리
소스

귀하의 의견에 감사드립니다. 이것은 내가 관심을 갖는 정확한 유형의 댓글입니다. Google 문서의 공유 및 가져 오기 구성 요소를 실제로 활용했습니다. 잘 됐네요. 자세한 내용은 자료를 읽어 드리겠습니다.

— Sympa

Gaetan님께, 귀하의 답변에 기뻐합니다. 친절한 말씀에 감사드립니다. 베스트, 탈

— 탈 Galili

R, bash, Python, asciidoc, (La) TeX, 오픈 소스 소프트웨어 또는 기타 유닉스 도구를 좋아하는 사용자는 객관적인 답변을 제공 할 수 없습니다. 또한 MS Excel 또는 모든 종류의 스프레드 시트 (데이터 또는 일부를 볼 수는 있지만 다른 것)는 사용하지 않는 경우가 많으므로 토론에 긍정적으로 기여하지는 않습니다. 난 유일한 사람이 아니야

P. Burns의 Spreadsheet Addiction .
MS R 의 정확성과 정확성 , 2004 R 메일 링리스트에 게시
L. Knusel, Microsoft Excel 97의 통계 분포 정확도 , 전산 통계 및 데이터 분석, 26 : 375-377, 1998. ( pdf )
BD McCullough & B. Wilson, Microsoft Excel 2000 및 Excel XP의 통계 절차 정확도 , 전산 통계 및 데이터 분석 , 40 : 713–721, 2002.
M. Altman, J. Gill & MP McDonald, 사회 과학자 통계 계산의 수치 문제 , Wiley, 2004. [예, pp. 12–14]

내 동료가 이전 버전과의 호환성 부족 등으로 인해 모든 매크로를 느슨하게했습니다. 다른 동료가 유전자 데이터 (80 만 개의 마커, 120 Mo에 약 700 명의 피험자 120 명)를 가져 오려고했습니다. Excel이 실패하고 메모장도 포기했습니다 ... vi로 "그것을보고"일부 sed / awk 또는 perl 스크립트로 데이터를 신속하게 다시 포맷 할 수 있습니다. 스프레드 시트의 유용성에 대해 논의 할 때 고려해야 할 다른 수준이 있다고 생각합니다. 작은 데이터 세트에서 작업하고 기본 통계 자료 만 적용하고 싶을 수도 있습니다. 그런 다음 결과를 신뢰하는 것은 전적으로 귀하의 몫입니다. 또는 항상 소스 코드를 요청할 수 있지만 NIST 벤치 마크를 사용하여 모든 인라인 프로 시저를 신속하게 테스트하는 것이 더 간단 할 수 있습니다.. 앞서 언급 한 목록을 업데이트 할 때 최신 버전의 MS Excel은 정확도가 향상 된 것으로 보이지만 실제로 는 통계를 수행하는 좋은 방법이라고 생각하지 않습니다. 통계 분석 은 9 가지 통계 소프트웨어 패키지의 신뢰성에 대한 비교 연구 인 Keeling and Pavur ( CSDA 2007 51 : 3811)를 참조하십시오.

여전히 10 또는 20 중 약 1 장 (생의학, 심리학, 정신과)에는 Excel로 만든 그래픽이 포함되어 있습니다. 때로는 회색 배경, 가로 검은 선 또는 자동 범례를 제거하지 않고 (Andrew Gelman 및 Hadley Wickham은 확실히 행복합니다. 그것을 볼 때 나). 그러나 FlowingData 의 최근 여론 조사 에 따르면 가장 일반적으로 사용되는 "소프트웨어"인 경향이 있는데, 이는 MASS R 패키지를 공동 작성했으며 패턴 인식에 대한 훌륭한 책을 쓴 Brian Ripley의 오래된 이야기를 떠올리게합니다. ) :

가장 많이 사용되는 통계 용 소프트웨어는 Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf입니다.

이제 통계를 빠르고 쉽게 얻을 수있는 방법을 제공한다고 생각하십니까? 문제는 그러한 환경에서 여전히 할 수없는 일이 있다는 것입니다 (적어도 까다 롭습니다). 부트 스트랩, 순열, 다변량 탐색 데이터 분석을 예로 들겠습니다. VBA (스크립팅이나 프로그래밍 언어가 아님)에 능숙하지 않은 한, R (또는 Matlab 또는 Python)에서 데이터에 대한 작은 작업조차 더 잘 처리한다고 생각하는 경향이 있습니다. 예를 들어 소위 data.frame). 무엇보다도, Excel은 데이터 분석가를위한 우수 사례를 장려하지는 않는다고 생각합니다 (그러나 이는 "진정"에도 적용됩니다. 데이터 처리 기록을 유지해야 할 필요성에 대해서는 Medstats에 대한 토론을 참조하십시오.문서화 분석 및 데이터 편집 ), Practical Stats 에 대한이 게시물 은 일부 Excel 함정을 비교적 잘 보여줍니다. 여전히 Excel에 적용되지만 GDoc으로 어떻게 변환되는지 모르겠습니다.

작업 공유에 관해서는 Github (또는 소스 코드의 요지 ) 또는 Dropbox (EULA가 일부 사람들을 실망시킬 수 있지만)가 매우 좋은 옵션 (수정 내역, 필요한 경우 보조금 관리 등) 이라고 생각하는 경향이 있습니다. 기본적으로 데이터를 이진 형식으로 저장하는 소프트웨어를 사용하도록 권장 할 수 없습니다. R, Matlab, Stata, SPSS로 가져올 수 있지만 내 의견으로는 알 수 있습니다.

데이터는 다른 통계 소프트웨어가 읽을 수있는 텍스트 형식이어야합니다.
분석은 재현 가능해야합니다. 즉, 분석을위한 완전한 스크립트를 제공해야하며 언제든지 다른 운영 체제에서 실행해야합니다 (여기서는 이상적인 사례에 접근합니다 ...).
자체 통계 소프트웨어는 승인 된 알고리즘을 구현해야하며 통계 모델링의 현재 모범 사례를 반영하도록 쉽게 업데이트 할 수있는 방법이 있어야합니다.
선택한 공유 시스템에는 버전 관리 및 공동 작업 기능이 포함되어야합니다.

그게 다야.

— CHL
소스

@Gaetan 내 답변 외에도 통계 실습 및 프로젝트 관리에 관한 토론과 관련이 있다고 생각하여 질문에 +1했습니다.

— chl

downvote에 대한 의견은 크게 감사하겠습니다.

— chl

@ chl :이 대답을 downvote하지는 않았지만 왜 그것을 다운 투표했는지 이해합니다. 귀하가 제공 한 정보는 정확하고 매우 중요하며 생각을 자극하는 정보입니다. 그러나 대부분은 (마지막 두 단락 제외) 질문에 대답하지 않습니다. 이상적으로,이 큰 면책 조항을 다른 곳에 작성하고 이에 대한 링크를 제공 할 것입니다.

— Boris Gorelik

@chl : 내 의견에 말에도 불구하고, 나는 당신의 대답과가-투표 그것을 사랑

— 보리스 Gorelik

@bgbg 의견을 보내 주셔서 감사합니다. CW 질문에 대답하지 않았을 수도 있습니다. 그러나 나는 절대적으로 도발적인 답변을하려고하지 않았습니다. OP는 GDocs의 잠재적 인 "버그 및 결함"에 대해 질문했습니다. Excel에서 내가 아는 것에 대한 그림을 제공합니다. 또한 질문의 일부를 "데이터 분석에 GDocs를 사용하면 어떤 이점이 있습니까?"를 이해하고 있으며 대규모 프로젝트에 스프레드 시트를 사용하거나 최첨단 분석에 대해 몇 가지 주장을했습니다. 이것이 편향되기 시작 함).

— chl

"또한 Google 문서와 관련된 버그 나 결함에 대해 듣고 싶습니다."

나는 원래 질문의 그 부분에만 응답 할 것입니다. Google Docs Spreadsheets (GSheets)에 대한 나의 탐구는 수학 및 통계 함수와 관련이 있습니다. 결국 내 평가에 따르면 Google 스프레드 시트는 2012 년에 악성 1997 년에 비해 열등한 것으로 평가됩니다.

증거 : Google 스프레드 시트는 erf (x)가 1에 가까운 인수에 대해 erfc (x) = 1-erf (x)를 사용하여 erfc (x)를 평가하는 것으로 나타났습니다. 평균의; 수치 연습이 잘못되었습니다. 포아송 (n, x) = pow (x, n) * exp (-x) / n과 같은 조합 함수와 이산 확률! 요소별로 평가되므로 불필요한 오버플로가 발생합니다. 계승은 스털링의 요인 별 근사를 사용하여 평가되므로 불필요한 오버플로가 발생합니다. 누적 푸 아송 분포는 단순히 유한 합을 수행하여 평가되므로 반올림에서 정규화 속성이 손실됩니다. 누적 이항 분포에 대해서도 마찬가지입니다. 누적 정규 분포가 완전히 엉망입니다. [0,1] 범위를 벗어납니다. 다른 패키지에서 동일한 기능의 구현과 관련하여 일반적인 정확도 손실이 있습니다. 반올림과 같은 기본 함수에 대한 설명은 종종 왜곡되고 이해하기 어렵습니다. 해석은 추측 게임입니다.

Google 문서 제품 포럼에서 다음 두 가지 게시물에 이러한 문제를 문서화했습니다.

(2011-11-13 이상) normdist가 여전히 음수 값을 발생시킵니다 https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 이상) GSheets의 통계 및 수학 함수 관련 오류 및 기타 문제 https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

— 바브라 만
소스

즉, (+1), (명백 보인다 많은! 구글) 통계가이 프로젝트에 참여 어떠한 방식에 있습니다.

— 추기경

내가 사용한 Google 문서 도구의 유일한 부분은 편집기로, 실시간 공동 작업으로 편집 할 때 매우 유용 합니다 . 나는 자식과 친구가 그 문제를 해결한다고 생각하지 않습니다!

— kjetil b halvorsen