A. Agresti (2007), 범주 형 데이터 분석 소개 , 2 번째를 읽고 있습니다. 이 단락 (p.106, 4.2.1)을 올바르게 이해했는지 확실하지 않습니다 (쉽지만).
이전 장의 코골이 및 심장병에 관한 표 3.1에서 254 명의 환자가 매일 밤 코골이를보고했으며 그 중 30 명이 심장병에 걸렸습니다. 데이터 파일이 이진 데이터를 그룹화 한 경우 데이터 파일의 한 줄은 이러한 데이터를 표본 크기 254에서 30 건의 심장병 사례로보고합니다. 데이터 파일이 이진 데이터를 그룹화하지 않은 경우 데이터 파일의 각 줄은 별도의 주제이므로 30 줄은 심장병에 대해 1을 포함하고 224 줄은 심장병에 대해 0을 포함합니다. ML 추정치 및 SE 값은 두 유형의 데이터 파일에 대해 동일합니다.
그룹화되지 않은 데이터 세트를 변환하려면 (1 개의 종속, 1 개의 독립) 모든 정보를 포함하는 데 "선"이상이 필요합니다!
다음 예에서는 (비현실적!) 단순 데이터 세트가 작성되고 로지스틱 회귀 모델이 작성됩니다.
그룹화 된 데이터는 실제로 어떻게 표시됩니까 (변수 탭)? 그룹화 된 데이터를 사용하여 동일한 모델을 어떻게 구축 할 수 있습니까?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())