간단한 선형 회귀 분석에서 ANOVA F- 검정의 논리


17


단순 선형 회귀 분석에서 ANOVA F- 검정의 논리를 이해하려고합니다. 내가 가진 질문은 다음과 같습니다. F 값, 즉 MSR/MSE큰 값이면 모델을 중요하게 받아들입니다. 이것의 논리는 무엇입니까?


@ Can'tTell 당신은 여기에 형식에 대한 도움을 찾을 수 있습니다 : stats.stackexchange.com/editing-help

답변:


21

당신은 하나 개의 예측 (단순 회귀)에있을 때 가장 단순한 경우, 말 X1F 포함 여부를 알려줍니다 -test X1 에서 관찰 된 변화의 큰 부분을 설명 않습니다 Y 널 모델에 비해을 (절편 만 해당) . 아이디어는 추가 된 설명 된 분산 (총 분산, TSS, 마이너스 잔차 분산, RSS)이 "유의 수량"으로 간주 될만큼 충분히 큰지 테스트하는 것입니다. 여기서는 모형을 하나의 예측 변수 또는 설명 변수와 비교하여 "노이즈"(대형 평균을 제외하고) 인 기준선과 비교합니다.

마찬가지로, 다중 회귀 설정에서 통계량을 계산할 수 있습니다 .이 경우 모형에 포함 된 모든 예측 변수 에 대한 검정에 해당합니다. HT 프레임 워크에서는 반응 예측에 유용한 예측 변수가 있는지 궁금합니다. 변하기 쉬운. 이것이 전체 모형에 대한 F- 검정 이 유의미하지만 각 회귀 계수와 관련된 일부 t 또는 z- 검정이 아닌 상황이 발생할 수있는 이유 입니다.FFtz

통계 모습처럼F

F=(TSSRSS)/(p1)RSS/(np),

여기서 는 모형 모수 의 개수 이고 n 은 관측치의 개수입니다. 이 수량은 임계 값 또는 p- 값 에 대한 F p - 1 , n - p 분포를 참조해야 합니다. 단순 회귀 모델에도 적용되며, 기존 ANOVA 프레임 워크와 일부 유사합니다.pnFp1,npp

각주. 예측 변수가 둘 이상인 경우 해당 예측 변수의 하위 집합 만 고려하여 모형 적합의 품질을 "감소시키는"지 궁금 할 수 있습니다. 이것은 우리가 중첩 된 모델 을 고려하는 상황에 해당합니다 . 이것은 주어진 회귀 모델과 모델 (예측 변수는 포함되지 않음) 을 비교하는 위의 상황과 정확히 동일한 상황 입니다. 설명 된 분산의 감소를 평가하기 위해 두 모형의 잔차 제곱합 (RSS)을 비교할 수 있습니다 (즉 모형에 존재하는 예측 변수의 효과를 설명하면 설명 할 수 없음). 하자 M 1 과 (기본 모델 나타내는 PM0M1p매개 변수)와 추가 예측 변수가있는 모델 ( 매개 변수), RSS Mq=p+1 이 작 으면 더 작은 모델이 더 큰 모델만큼 성능이 좋은 것으로 간주합니다. 사용하기에 좋은 통계량은 이러한자유도 (분자에 대한p-q,n-p)에 따라 가중치를 둔SS(RSS M 1 -RSS M 0 )/RSS M 0 의 비율입니다.RSSM1RSSM0(RSSM1RSSM0)/RSSM0pqnp분모). 이미 언급했듯이,이 양은 p - qn - p 자유도를 갖는 (또는 Fisher-Snedecor) 분포를 따른다는 것을 알 수 있습니다 . 관측 된 F 가 주어진 α (대개 α = 0.05 ) 에서 해당 F Quantile 보다 큰 경우 , 더 큰 모델이 "더 나은 작업"을한다는 결론을 내릴 수 있습니다. (실제적인 관점에서 모델이 올바른 것은 아닙니다.)FpqnpFFαα=0.05

위 아이디어의 일반화는 우도 비 테스트 입니다.

R을 사용하는 경우 다음과 같은 개념을 사용할 수 있습니다.

df <- transform(X <- as.data.frame(replicate(2, rnorm(100))), 
                                   y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df))         # "ANOVA view"
summary(lm(y ~ V1, df))       # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0)               # test of V2

@chl-우선, 좋은 답변입니다! 이것은 자신의 질문을 보증 할 수 있으므로 알려주십시오 ...하지만 회귀 모델의 분산 분석 테이블에 대해 읽은 설명은 일반적으로 예측 변수, 오류 및 총계의 세 행을 나타냅니다. 그러나 anova()R 의 함수는 모형의 각 예측 변수에 대한 개별 행을 반환합니다. 예를 들어, anova(lm0)위의 행 반환 V1, V2Residuals(없이 총을). 따라서이 모델에 대한 두 가지 F * 통계를 얻습니다. 이것이 ANOVA 테이블에보고 된 F * 통계량의 해석을 어떻게 변경합니까?
체이스

@Chase 네, 제가 생각하고있는 ANOVA 테이블도 이런 식으로 배열되어 있습니다. 질문을 자유롭게하십시오; 다른 사용자의 의견을 듣고 싶습니다. 나는 일반적으로 anova()GLM 비교에 사용 합니다. lm또는 aov객체에 적용되면 모델의 각 항에 대해 별도의 효과 (SS)가 표시되고 TSS는 표시되지 않습니다. (이 방법을 ANOVA에 적용한 후에는 다른 방법으로 적용했습니다 . 처리 대비에 대한 아이디어를 얻을 aov()수 있습니다 summary.lm().) 그러나 summary.lm()와 사이에 미묘한 문제가 있으며 summary.aov()특히 순차 피팅과 관련이 있습니다.
chl

@Chase 방금 R의 lm () 출력 해석에 대한 @Gavin의 매우 훌륭한 응답을 다시 발견했습니다 .
chl

@chl-나에게서 조금 따끔 거림. 그것은 F- 테스트 의 직관 과 그것이 "올바른 방향으로가는"방법 에 대한 좋은 해답 입니다. 그러나 왜이 특정 테스트를 선택해야하는지에 대한 논리는 설명하지 않습니다. 예를 들어 왜 PRESS 통계를 사용해서는 안됩니까? - 당신은 우도 비 암시 않는 논리적 정당성이 - 따라서 그 적용을 모든 모델에의 F-시험과는 달리.
chanceislogic

@probabilityislogic 좋은 지적입니다. 저의 아이디어는 원래 모델 비교의 논리를 보여주는 것이 었습니다. 간단한 회귀 모델은 특별한 경우 ( "매우 null"모델과 비교) LRT에 대한 빠른 메모를 유발합니다. 우리가 HT에 대한 순수한 Neyman-Pearson 접근 방식을 따라 작업한다면 나는 당신에게 동의합니다. 그러나, 나는 SS가 직접적인 기하학적 해석을 가지고 있고 일원 분산 분석 (one-way ANOVA)에 대한 모델 비교 또는 단일 F- 검정이있는 LM 이론에 대해 주로 생각하고있었습니다.
chl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.