회귀 모델링은 종종 과학보다 "예술"이기 때문에 회귀 구조의 여러 반복을 테스트하는 경우가 종종 있습니다. "최상의"모델을 찾기 위해 이러한 여러 모델 실행의 정보를 요약하는 효율적인 방법은 무엇입니까? 내가 사용한 한 가지 접근 방식은 모든 모델을 목록에 넣고 해당 목록을 실행 summary()하는 것입니다.하지만 비교하는 더 효율적인 방법이 있다고 생각합니까?
샘플 코드 및 모델 :
ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14)
trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69)
group <- gl(2,10,20, labels=c("Ctl","Trt"))
weight <- c(ctl, trt)
lm1 <- lm(weight ~ group)
lm2 <- lm(weight ~ group - 1)
lm3 <- lm(log(weight) ~ group - 1)
#Draw comparisions between models 1 - 3?
models <- list(lm1, lm2, lm3)
lapply(models, summary)
5
데이터 준설처럼 들립니다. 모델링을 시작 하기 전에 적절한 모델이라고 생각하는 것, 공변량, 변형 등에 초점을 두어서는 안됩니다 . R은 당신이 좋은 모델을 찾기 위해 모든 모델 피팅을했는지 모른다.
—
복원 Monica Monica-G. Simpson
@Gavin-나는 이것이 매우 끔찍하게 주제를 벗어난 것을 볼 수 있지만 짧은 대답은 아니오입니다. 데이터 준설을 옹호하거나 데이터 세트의 임의 변수 사이의 가짜 관계를 찾지 않습니다. 소득이 포함 된 회귀 모형을 고려하십시오. 모델에 미치는 영향을 확인하기 위해 소득에 대한 변환을 테스트하는 것이 합리적이지 않습니까? 소득 로그, 10s 달러 소득 로그, 100s 소득 로그 ...? 데이터 준설 인 경우에도 많은 모델 실행의 결과를 집계 할 수있는 기능 / 요약 도구가 여전히 도움이 되겠습니까?
—
Chase
