두 개의 선형 회귀 모델 비교


12

두 가지 조건에서 시간이 지남에 따라 mRNA의 분해 속도를 나타내는 두 개의 선형 회귀 모델을 비교하고 싶습니다. 각 모델의 데이터는 독립적으로 수집되었습니다.

다음은 데이터 세트입니다.

시간 (시간) 로그 (처리 A) 로그 (처리 B)
0 2.02 1.97
0 2.04 2.06
0 1.93 1.96
2 2.02 1.91
2 2.00 1.95
2 2.07 1.82
4 1.96 1.97
4 2.02 1.99
4 2.02 1.99
6 1.94 1.90
6 1.94 1.97
6 1.86 1.88
8 1.93 1.97
8 2.12 1.99
8 2.06 1.93
12 1.71 1.70
12 1.96 1.73
12 1.71 1.76
24 1.70 1.46
24 1.83 1.41
24 1.62 1.42

이들은 내 모델입니다.

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))
요구:
lm (수식 = Exp1 $ Time ~ Exp1 $ (처리 A))

잔차 :
    최소 1Q 중간 3Q 최대 
-6.8950 -1.2322 0.2862 1.2494 5.2494 

계수 :
                   Std. 오차 t 값 Pr (> | t |)    
(차단) 74.68 6.27 11.91 2.94e-10 ***
Exp1 $ (치료 A) -36.14 3.38 -10.69 1.77e-09 ***
---
서명. 코드 : 0 '***'0.001 '**'0.01 '*'0.05 '.' 0.1 ''1

잔차 표준 오차 : 자유도 19에서 2.97
다중 R 제곱 : 0.8575, 조정 된 R 제곱 : 0.85 
F- 통계량 : 1 및 19 DF에서 114.3, p- 값 : 1.772e-09

요구:
lm (수식 = Exp1 $ Time ~ Exp1 $ (처리 B))

잔차 :
   최소 1Q 중간 3Q 최대 
-7.861 -3.278 -1.444 3.222 11.972 

계수 :
                      Std. 오차 t 값 Pr (> | t |)    
(차단) 88.281 16.114 5.478 2.76e-05 ***
Exp1 $ (치료 B) -41.668 8.343 -4.994 8.05e-05 ***
---
서명. 코드 : 0 '***'0.001 '**'0.01 '*'0.05 '.' 0.1 ''1

잔차 표준 오차 : 19 자유도에서 5.173
다중 R 제곱 : 0.5676, 조정 된 R 제곱 : 0.5449 
F- 통계량 : 1 및 19 DF에서 24.94, p- 값 : 8.052e-05

이 두 모델을 비교하기 위해 다음 코드를 사용했습니다.

anova(Exp1.A.lm,Exp1.B.lm)
분산 표 분석

모형 1 : Exp1 $ Time ~ Exp1 $ Exp1 $ (처리 A)
모형 2 : Exp1 $ 시간 ~ Exp1 $ Exp1 $ (처리 B)
  Res.Df RSS Df Sq의 합 F Pr (> F)
1 19 167.60                      
2 19 508.48 0 -340.88

내 질문은 ANOVA 분석에 F 통계와 p.val이 표시되지 않는 이유입니다. 이것이 순진한 질문이라면 사과드립니다.

다른 기울기를 기준으로이 두 모델에서 열화 속도가 다르지만이 차이가 통계적으로 얼마나 중요한지 알고 싶습니다. 이것이 의미가 있기를 바랍니다.


2
ANOVA 테이블은 분석과 관련된 자유도를 0으로 나열합니다 . 두 모델 모두에 동일한 수의 변수가 있으므로 F 또는 p- 값을 계산할 수 없기 때문입니다.
gung-Monica Monica 복원

5
나는 그들의 적합도를 확인한 후에야이 모델들을 비교할 필요가 없습니다. 두 번째 질문에서는 응답이나 로그가 시간의 선형 함수가 아니라는 것을 알 것입니다. 이것은 슬로프 추정치의 비교를 (심각하게) 의문합니다.
whuber

답변:


11

A와 B를 새 열로 사용하여 하나의 긴 열에 데이터를 설정 한 경우 연속 시간 변수와 공칭 "실험"변수 (A, B)를 사용하여 회귀 모델을 GLM으로 실행할 수 있습니다. ANOVA의 결과는 매개 변수 간의 차이의 중요성을 제공합니다. "절편"은 일반적인 절편이며 "실험"요소는 실험 간의 절편 (실제로 전체 평균) 간의 차이를 반영합니다. "시간"요소는 일반적인 기울기가되고 상호 작용은 실험과의 차이입니다 경사면까지.

나는 부정 행위 (?)를 인정하고 두 개의 매개 변수 세트와 오류를 얻기 위해 먼저 모델을 별도로 실행 한 다음 결합 된 모델을 실행하여 치료 (차례 A와 B의 경우)의 차이를 얻습니다 ...


3
이것은 영리한 접근법입니다. "치트"할 때 각 모델에서 오차 분산이 거의 동일한 지 확인합니까? 그리고 그것들이 실질적으로 다른 것처럼 보이면, 그것은 당신의 추천에 어떻게 영향을 미칩니 까?
whuber

GLM은 좋은 접근 방식이며 데이터를 탐색하기 위해 별도의 모델을 적합시키는 것이 실험 간의 오차 분산을 판단하는 좋은 방법입니다. 실제로 우려가 있다면 모든 실험 데이터에 대한 공통 오차 분산의 암시 적 가정이 아니라 그룹 별 오차 분산을 포함하도록 GLM 모델을 확장 할 수 있습니다.
prince_of_pears

기억해야 할 또 다른 사항은 OP가 실험 간의 분해 속도가 단순히 서로 다른지 (절대 속도를 무시하고) 또는이 속도가 통계적으로 (또는 실제적으로) 0과 다른지 여부에 관심이 있는지 여부입니다. 첫 번째는 처리와 시간 사이의 상호 작용 계수가 0이라는 가설 검정에 해당합니다. 두 번째는 각 비율이 0과 다른 두 가지 개별 테스트 (또는 하나의 공동 가설 테스트)를 수행하는 것입니다. 나는 첫 번째 전에 두 번째 테스트에 더 관심이있을 수 있습니다.
prince_of_pears

5

두 모델 모두 동일한 잔류 자유도 (예 : 19)를 가지므로 분산 분석에 F 통계량 및 p. 값이 표시되지 않으며 차이를 취하면 0이됩니다! F- 검정을 수행하기 위해 차이를 얻은 후에는 자유도가 1 이상이어야합니다.


귀하의 답변을 이해하는지 잘 모르겠습니다. 잔차 자유도가 동일한 이유가 있습니까? 슬로프를 비교하는 다른 접근법에 대한 제안이 있습니까?
Rooz

그렇습니다. 두 모델 모두 21 개의 관측치, 즉 입니다. 하나의 설명 랜덤 변수 (예 : Exp1 (처리 B))를 사용한 선형 회귀 분석에서 회귀 변수 의 자유도는 1입니다. 총 자유도는 입니다. 참고 . 따라서 두 모델에서 이므로 F 테스트를 사용할 수 없습니다. n=21(TreatmentA)orExp1dfT=n1=20dfT=dferror+dfregressorsdferror=19
Stat

F- 검정 이외의 여러 가지 방법이 있습니다. 가장 쉬운 방법은 요약에서와 같이 다중 R 제곱 및 조정 R 제곱을 사용하는 것입니다 .R 제곱 또는 조정 R 제곱이 높은 모델이 더 좋습니다. 여기서 더 좋은 모델은 Exp1 $ (처리 A)가있는 것 같습니다. 그러나 모형의 잔차를 확인하여 적합 모형의 적합성을 확인해야합니다. 나는 개인적으로 R 제곱 기준에만 의존하는 것을 권장하지 않으며 선형 모델에서도 다른 가정을 확인해야합니다. 특히 잔차가 자기 상관인지 아닌지 확인하십시오.
Stat
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.