선형 회귀 모형에서 변수가 중요합니까?


9

표본 및 가변 관측치가있는 선형 회귀 모델이 있고 알고 싶습니다.

  1. 특정 변수가 모델에 포함되어있을만큼 충분히 중요한지 여부
  2. 다른 변수 (관측 값 포함)가 모형에 포함되어야하는지 여부

어떤 통계가 도움이 될 수 있습니까? 가장 효율적인 방법은 무엇입니까?

답변:


26

통계적 유의성은 일반적으로 변수가 모형에 포함되어야하는지 여부를 결정하기위한 좋은 기준이 아닙니다. 통계 테스트는 변수를 선택하지 않고 가설을 테스트하도록 설계되었습니다. 통계 테스트를 사용하여 변수 선택에 대해 많은 교과서가 알고 있지만 일반적으로 이것은 나쁜 접근 방식입니다. 몇 가지 이유는 Harrell의 Regression Modeling Strategies 를 참조하십시오 . 요즘 AIC (또는 유사한 것)를 기반으로 한 변수 선택이 일반적으로 선호됩니다.


실제로, 내 기억을 최대한으로, Harrell은 AIC의 사용을 강력히 권장하지 않습니다. 교차 검증이 아마도 가장 안전한 방법 일 것입니다.
탈 Galili

1
AIC는 CV와 동일합니다. stats.stackexchange.com/questions/577/…에 대한 답변을 참조하십시오 . 그 답을 쓰기 전에 Harrell을 확인했는데 AIC에 대한 낙담을 보지 못했습니다. 그는 변수 선택 후 AIC 또는 다른 방법으로 유의성 검정에 대해 경고합니다.
Rob Hyndman

@Tal : 아마도 RMS 책이 아니라 그의 논문 중 하나에서 하렐은 단순히 여러 모델 의 풀 중에서 선택하기 위해 AIC 사용에 반대하는 것을 기억 합니다. 그의 요점은 한 번에 변수를 추가하고 두 모델을 체계적으로 비교하거나 비슷한 전략을 사용해야한다는 것입니다. (분명히 말하면, 이것은 Rob의 답변과 일치합니다.)
ars

빠른 검색을 통해 Harrell은 "P- 값, R- 제곱, 부분 R- 제곱, AIC, BIC, 회귀 계수 또는 Mallows 'Cp를 기반으로 모델 선택에주의하십시오."라고 작성했습니다. 그는 2008 년 12 월 14 일에 [R] LRM 함수 (패키지 디자인)-평문에서 계수에 대한 p- 값 구하기라는 메일 링리스트에 이것을 썼습니다. 나는 그의 의미를 오해 한 것 같아요.
탈 Galili

2
@Tal, @Rob : 그 스레드에서 "계층 구조 원칙을 사용하십시오"라고 말합니다. medstats (Harrell의 응답을 위해 아래로 스크롤)에서 논의한 내용은 groups.google.com/group/medstats/browse_thread/thread/…
ars

4

두 번째 Rob의 의견입니다. 점점 선호되는 대안은 모든 변수를 포함하고 0으로 축소하는 것입니다. Tibshirani, R. (1996)을 참조하십시오. 올가미를 통한 회귀 수축 및 선택.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf


1
요즘 "점점 선호되는 것"을 정량화하는 방법이 있습니까?
Tal Galili

수축 기법이 * .IC 접근법보다 최근 적용된 통계 논문에서 더 많이 사용된다는 점에서 많은 분야에서 과학적으로 더 정확하다고 생각합니다. 그것은 적어도 암묵적인 이론적 합의를 보여줍니다.
user603

1
@ user603-또한 수축 방식으로 잠재적으로 엄청난 계산 이점이 있습니다. 이상의 모델 을 검색 할 필요가 없음2
확률 론적

3

1 부에서는 F- 검정을 찾고 있습니다. 각 모형 적합치의 잔차 제곱합을 계산하고 F- 통계량을 계산하여 F- 분포 또는 자신이 생성하는 다른 null 분포에서 p- 값을 찾는 데 사용할 수 있습니다.


1

Rob의 답변에 대한 또 다른 투표.

"상대적 중요성"문헌에도 흥미로운 아이디어가 있습니다. 이 연구는 다수의 후보 예측 변수 각각과 연관성이 얼마나 중요한지를 결정하는 방법을 개발합니다. 베이지안 및 상용주의 방법이 있습니다. 인용 및 코드에 대해서는 R의 "relaimpo"패키지를 확인하십시오.


1

나는 또한 Rob의 대답을 좋아합니다. R 대신 SAS를 사용하는 경우 PROC GLM으로 수행 할 모델에 PROC GLMSELECT를 사용할 수 있지만 다른 모델에서도 잘 작동합니다. 보다

Flom and Cassell "단계별 중지 : 단계적 선택 방법이 나쁜 이유와 사용해야하는 것", 가장 최근에 NESUG 2009

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.