저체중 체중 연구
이것은 Applied Logistic Regression (2000, Wiley, 2nd ed.) 에 관한 Hosmer and Lemeshow의 교과서에있는 데이터 세트 중 하나입니다 . 이 예비 연구의 목표는 저체중아 (2,500g 미만)를 낳는 것과 관련된 위험 요소를 확인하는 것이 었습니다. 데이터는 189 명의 여성에 대해 수집되었으며, 그 중 59 명은 저체중아를, 130 명은 정상 체중아를 가지고 있습니다. 중요하다고 생각되는 4 가지 변수는 연령, 마지막 월경 기간의 대상체 체중, 인종 및 임신 첫 삼 분기 동안 의사 방문 횟수입니다.
R로 data(birthwt, package="MASS")
또는 Stata를 통해 사용할 수 있습니다 webuse lbw
. lowbwt.dat ( description ) 텍스트 버전이 여기에 나타납니다 . ALR 7 장에서 Hosmer와 Lemeshow가 설명했듯이이 데이터 세트는 사례 제어 연구 (1 세 또는 1-3 세, 연령에 따라 일치)로 확장 되었기 때문에 여러 데이터 버전이 있습니다.
다음과 같은 이유로이 데이터 세트를 기반으로 입문 과정을 가르쳤습니다.
- 역사적이고 역학적 인 관점에서 흥미 롭다 (1986 년에 자료가 수집되었다). 주요 아이디어와 해당 연구에서 어떤 질문을 할 수 있는지 이해하기 위해 의학이나 통계에 대한 사전 지식이 필요하지 않습니다.
- χ2
- 다양한 모델링 관점 (설명 적 또는 예측 적 접근법)과 모델을 개발할 때 샘플링 체계의 의미 (층화 / 일치하는 경우)에 대해 논의 할 수 있습니다.
통계 소프트웨어에 대한 독자 및 전문 지식 수준 또는 일반적인 통계에 따라 강조 할 수있는 기타 사항.
R에서 사용 가능한 데이터 세트에 관해서는 범주 형 예측 변수가 정수로 표시됩니다 (예 : 어머니의 민족성에 대해서는 '1'= 흰색, '2'= 검은 색, '3'= 기타). 일부 예측 변수의 자연 순서는 사실에도 불구하고 (예 : 이전 조산 횟수 또는 의사 방문 횟수) 또는 명시 적 레이블 사용 (바이너리 변수의 경우 1/0 대신 'yes'/ 'no'를 사용하는 것이 좋습니다. 디자인 매트릭스에서 아무것도 변경하지 마십시오!)는 단순히 결석합니다. 따라서 데이터 분석에서 수준이나 측정 단위를 무시하면 어떤 문제가 발생할 수 있는지 쉽게 논의 할 수 있습니다.
혼합 유형의 변수는 탐색 적 분석을 수행 할 때 흥미롭고 일 변량, 이변 량 또는 삼 변량 관계를 요약하는 데 어떤 종류의 그래픽 디스플레이가 적합한 지 논의합니다. 마찬가지로 멋진 요약 테이블을 생성하고보다 일반적으로보고하는 것도이 데이터 세트의 또 다른 흥미로운 측면입니다 (하지만 Hmisc::summary.formula
명령을 사용하면 R에서 쉽게 수행 할 수 있습니다).
Hosmer와 Lemeshow는 실제 데이터가 주제 기밀성을 보호하기 위해 수정되었다고보고했습니다 (25 페이지). 이전 저널 클럽 중 하나에서했던 것처럼 데이터 기밀성 문제에 대해 논의하는 것이 흥미로울 수 있지만 그 내용을보십시오 . (나는 그것에 대해 많은 세부 사항을 다루지 않는다는 것을 인정해야합니다.)
(a) 코드북 ( Hmisc::describe
또는 Stata codebook
) 또는 탐색 그래픽을 통한 탐지 (항상 데이터를 먼저 플로팅 함 )를 논의하는 결 측값 또는 잘못된 값 (통계 전문가의 실제 문제)을 쉽게 도입 할 수 있습니다 . 및 (b) 가능한 치료 (데이터 대치, 목록 별 삭제 또는 쌍별 연관성 측정 등).