통계 분석의 특정 측면을 설명하는 데 유용한 데이터 세트는 무엇입니까?


16

나는 이것이 주관적이라는 것을 알고 있지만, 우리가 가장 좋아하는 데이터 세트와 우리가 생각하는 것들에 대해 이야기하는 것이 좋을 것이라고 생각했습니다. 풍부한 데이터가 있으며 모든 API (예 : Datamob )와 클래식 데이터 세트 (예 : R data )를 사용하면 매우 흥미로운 응답을 얻을 수 있다고 생각합니다.

예를 들어, 나는 항상 "Boston Housing"데이터 셋 (불행한 의미에도 불구하고)과 "mtcars"와 같은 데이터 셋의 다양성을 좋아했습니다. 교육 학적 관점에서 볼 때 다양한 통계 기법의 장점을 보여줄 수 있습니다. 앤더슨 / 피셔의 홍채 데이터 세트는 항상 내 마음 속에 자리 잡고 있습니다.

생각?


2
논문을 올바르게 분석하면 박사 학위를받을 수 있기 때문에 논문에 사용되는 논문>.>
Fomite

3
Cross Validated에 오신 것을 환영합니다! 이 포럼은 토론 포럼이 아니라 실제 답변이있는 질문에 대한 Q & A 사이트로 설계되었습니다. 따라서 나는 이것이 우리가이 사이트에서 원하는 질문 유형이라고 생각하지 않습니다. FAQ를 참조하십시오 .
Michael McGowan

4
Q & A로 설계되었지만 '좋아하는 통계 만화는 무엇입니까?'와 같은 질문이 있습니다. 투표율이 높았 기 때문에 이것이 부적절하지 않을 것이라고 생각했습니다. 특히 교육적으로, 누군가가 데이터 분석 및 탐색 기술에 대해 배우려고 할 경우 풍부한 구조를 제공하고 그 뒤에 많은 역사와 연구가있는 공개 데이터 세트에 대한 피드백을 얻는 것이 유용 할 수 있습니다.
DA

4
나는 철저하고 논쟁적인 답장이 데이터 분석의 특정 측면에 대한 미래의 질문에 대한 지원으로 도움이 될 수 있다고 덧붙이지만 커뮤니티가 이것이 폐쇄적이어야하는지 (건설적이지 않은지) 여부를 결정하게하는 경향이 있습니다. 그 동안 단일 답변이 없기 때문에 이것을 CW로 변환하고 있습니다.
chl

2
이 질문과 답변은 매우 유용합니다. 제거하지 마십시오.
dsign

답변:


12

저체중 체중 연구

이것은 Applied Logistic Regression (2000, Wiley, 2nd ed.) 에 관한 Hosmer and Lemeshow의 교과서에있는 데이터 세트 중 하나입니다 . 이 예비 연구의 목표는 저체중아 (2,500g 미만)를 낳는 것과 관련된 위험 요소를 확인하는 것이 었습니다. 데이터는 189 명의 여성에 대해 수집되었으며, 그 중 59 명은 저체중아를, 130 명은 정상 체중아를 가지고 있습니다. 중요하다고 생각되는 4 가지 변수는 연령, 마지막 월경 기간의 대상체 체중, 인종 및 임신 첫 삼 분기 동안 의사 방문 횟수입니다.

R로 data(birthwt, package="MASS")또는 Stata를 통해 사용할 수 있습니다 webuse lbw. lowbwt.dat ( description ) 텍스트 버전이 여기에 나타납니다 . ALR 7 장에서 Hosmer와 Lemeshow가 설명했듯이이 데이터 세트는 사례 제어 연구 (1 세 또는 1-3 세, 연령에 따라 일치)로 확장 되었기 때문에 여러 데이터 버전이 있습니다.

다음과 같은 이유로이 데이터 세트를 기반으로 입문 과정을 가르쳤습니다.

  • 역사적이고 역학적 인 관점에서 흥미 롭다 (1986 년에 자료가 수집되었다). 주요 아이디어와 해당 연구에서 어떤 질문을 할 수 있는지 이해하기 위해 의학이나 통계에 대한 사전 지식이 필요하지 않습니다.
  • χ2
  • 다양한 모델링 관점 (설명 적 또는 예측 적 접근법)과 모델을 개발할 때 샘플링 체계의 의미 (층화 / 일치하는 경우)에 대해 논의 할 수 있습니다.

통계 소프트웨어에 대한 독자 및 전문 지식 수준 또는 일반적인 통계에 따라 강조 할 수있는 기타 사항.

  1. R에서 사용 가능한 데이터 세트에 관해서는 범주 형 예측 변수가 정수로 표시됩니다 (예 : 어머니의 민족성에 대해서는 '1'= 흰색, '2'= 검은 색, '3'= 기타). 일부 예측 변수의 자연 순서는 사실에도 불구하고 (예 : 이전 조산 횟수 또는 의사 방문 횟수) 또는 명시 적 레이블 사용 (바이너리 변수의 경우 1/0 대신 'yes'/ 'no'를 사용하는 것이 좋습니다. 디자인 매트릭스에서 아무것도 변경하지 마십시오!)는 단순히 결석합니다. 따라서 데이터 분석에서 수준이나 측정 단위를 무시하면 어떤 문제가 발생할 수 있는지 쉽게 논의 할 수 있습니다.

  2. 혼합 유형의 변수는 탐색 적 분석을 수행 할 때 흥미롭고 일 변량, 이변 량 또는 삼 변량 관계를 요약하는 데 어떤 종류의 그래픽 디스플레이가 적합한 지 논의합니다. 마찬가지로 멋진 요약 테이블을 생성하고보다 일반적으로보고하는 것도이 데이터 세트의 또 다른 흥미로운 측면입니다 (하지만 Hmisc::summary.formula명령을 사용하면 R에서 쉽게 수행 할 수 있습니다).

  3. Hosmer와 Lemeshow는 실제 데이터가 주제 기밀성을 보호하기 위해 수정되었다고보고했습니다 (25 페이지). 이전 저널 클럽 중 하나에서했던 것처럼 데이터 기밀성 문제에 대해 논의하는 것이 흥미로울 수 있지만 그 내용을보십시오 . (나는 그것에 대해 많은 세부 사항을 다루지 않는다는 것을 인정해야합니다.)

  4. (a) 코드북 ( Hmisc::describe또는 Stata codebook) 또는 탐색 그래픽을 통한 탐지 (항상 데이터를 먼저 플로팅 함 )를 논의하는 결 측값 또는 잘못된 값 (통계 전문가의 실제 문제)을 쉽게 도입 할 수 있습니다 . 및 (b) 가능한 치료 (데이터 대치, 목록 별 삭제 또는 쌍별 연관성 측정 등).


+1이 글타래 가 유용 할 수 있고 다른 답글이 목표로 할 수있는 노출 표준 을 제시하는 예시적인 답변을 보내 주셔서 감사합니다 .
whuber

이것은 환상적이고 정확하게 질문을하면서 찾고있는 것입니다. 소중한 통찰력을 가져 주셔서 감사합니다.
DA

5

물론 Anscombe 4 데이터 세트는 교육에 매우 유용합니다. 매우 다르게 보이지만 간단한 통계 속성은 동일합니다.

또한 KDD Cup 데이터 세트 ( http://www.kdd.org/kddcup/) 는 잘 연구되었고 많은 솔루션이 있으므로 학생들이 결과를 비교하고 순위를 확인할 수 있기 때문에 제안 합니다.

데이터 마이닝 과정에서 교수님이 사용할 수있는 Microarray 데이터 셋 경쟁을 제공했습니다 http://www.kdnuggets.com/data_mining_course/


Anscombe Quartet과 비슷한 방식으로 교육학 목적으로 설계된 다른 데이터 세트에 대해서는 이 질문을 참조하십시오 .
Silverfish

3

Cal Poly의 많은 통계 분석 과정에서 이미 R에있는 "Iris"데이터 세트를 사용했습니다. 범주 형 변수와 관련성이 높은 변수가 있습니다.


마지막 요점을 확장 하시겠습니까?이 데이터 세트가 통계 교육에 어떻게 도움이됩니까? (AFAICT, 홍채 데이터 세트에는 하나의 범주 형 변수, 즉 홍채 클래스 만 있습니다.)
chl

다음은 가르치는 데 Iris 데이터 세트를 사용하는 것과 전적으로 관련된 스레드 입니다.
Silverfish

3

Harrell이 "회귀 모델링 전략"에서 사용하는 타이타닉 데이터 셋. 나는 로지스틱 회귀 분석, 성별, 클래스 및 연령을 사용하여 생존을 설명 할 때 단순화 된 분석 버전을 사용합니다.

Loyn 데이터 세트 제리 퀸과 믹 Keough하여 "실험 설계 및 생물 학자에 대한 데이터 분석"에서 논의 된 다중 선형 회귀에 대한 변화를 요구하는 좋은 문제가 포함되어 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.