문맥
이 질문은 R을 사용하지만 일반적인 통계 문제에 관한 것입니다.
필자는 유충 개체군이 8 년 동안 1 년에 한 번 12 개 사이트에서 샘플링 된 시간에 따른 나방 개체군 성장률에 대한 사망률 (질병 및 기생충으로 인한 사망률)의 영향을 분석하고 있습니다. 인구 증가율 데이터는 시간이 지남에 따라 명확하지만 불규칙적 인 주기적 경향을 나타냅니다.
단순 일반화 선형 모형 (성장률 ~ % 질병 + 기생충 + 연도)의 잔차는 시간이 지남에 따라 유사하지만 불규칙적 인 주기적 경향을 나타 냈습니다. 따라서, 동일한 형태의 일반화 된 최소 제곱 모델도 시간 자기 상관, 예를 들어 복합 대칭, 자기 회귀 프로세스 차수 1 및 자기 회귀 이동 평균 상관 구조를 처리하기 위해 적절한 상관 구조를 갖는 데이터에 적합 하였다.
모델은 모두 동일한 고정 효과를 포함하고 AIC를 사용하여 비교되었으며 REML에 의해 적합 화되었습니다 (AIC에 의해 서로 다른 상관 구조를 비교할 수 있도록). R 패키지 nlme 및 gls 함수를 사용하고 있습니다.
질문 1
GLS 모델의 잔차는 시간에 대해 플롯 할 때 여전히 거의 동일한 주기적 패턴을 표시합니다. 자기 상관 구조를 정확하게 설명하는 모델에서도 이러한 패턴이 항상 유지됩니까?
나는 두 번째 질문 아래 R에서 단순화되었지만 유사한 데이터를 시뮬레이트 했습니다.이 모델 은 현재 잔차에서 일시적으로 자기 상관 패턴을 평가하는 데 필요한 방법에 대한 현재 이해를 바탕으로 문제를 보여줍니다 .
질문 2
가능한 모든 가능한 상관 관계 구조를 가진 GLS 모델을 내 데이터에 적합 시켰지만 상관 관계 구조가없는 GLM보다 실질적으로 더 잘 맞는 것은 없었습니다. 단 하나의 GLS 모델이 조금 더 나은 반면 (AIC 점수 = 1.8) 높은 AIC 값. 그러나 이것은 GLS 모델이 훨씬 더 나은 ML이 아닌 ML이 아닌 모든 모델에 REML이 장착 된 경우에만 해당되지만 통계 책에서 REML을 사용하여 다른 상관 구조와 동일한 고정 효과를 가진 모델을 비교해야한다고 이해합니다. 여기서 자세히 설명하지 않겠습니다.
데이터의 명백히 자동 상관 된 특성을 고려할 때, 단순한 GLM보다 모델이 적당히 우수하지 않은 경우 적절한 방법을 사용한다고 가정 할 때 추론에 사용할 모델을 결정하는 가장 적절한 방법은 무엇입니까? 다른 변수 조합을 비교하는 AIC)?
적절한 상관 구조가 있거나없는 모델에서 잔차 패턴을 탐색하는 Q1 '시뮬레이션'
주기적 효과가 '시간'이고 양의 선형 효과가 'x'인 시뮬레이션 응답 변수를 생성합니다.
time <- 1:50
x <- sample(rep(1:25,each=2),50)
y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1)
y는 임의의 변동과 함께 '시간'에 대한 순환 추세를 표시해야합니다.
plot(time,y)
그리고 임의의 변이를 가진 'x'와 양의 선형 관계 :
plot(x,y)
"y ~ time + x"의 간단한 선형 덧셈 모델을 만듭니다.
require(nlme)
m1 <- gls(y ~ time + x, method="REML")
모델은 예상대로 '시간'에 대해 플롯 할 때 잔차에 명확한 주기적 패턴을 표시합니다.
plot(time, m1$residuals)
그리고 'x'에 대해 플롯 할 때 잔차의 패턴이나 추세가 훌륭하고 명확하게 부족해야합니다.
plot(x, m1$residuals)
차수 1의 자기 회귀 상관 구조를 포함하는 "y ~ time + x"의 간단한 모델은 AIC를 사용하여 평가할 때 자기 상관 구조 때문에 이전 모델보다 데이터에 훨씬 더 적합해야합니다.
m2 <- gls(y ~ time + x, correlation = corAR1(form=~time), method="REML")
AIC(m1,m2)
그러나 모델은 여전히 거의 동일한 '일시적으로'자기 상관 잔차를 표시해야합니다.
plot(time, m2$residuals)
조언을 주셔서 대단히 감사합니다.