OLS 회귀를 실행하려고합니다.
DV : 1 년에 걸친 체중 변화 (초기 체중-최종 체중)
IV : 운동 여부.
그러나 무거운 사람이 얇은 사람보다 운동 단위당 더 많은 체중을 잃는 것이 합리적입니다. 따라서 제어 변수를 포함하고 싶었습니다.
- CV : 초기 시작 무게.
그러나 이제 초기 가중치 를 사용하여 종속 변수 AND를 제어 변수로 계산합니다.
괜찮습니까? 이것이 OLS의 가정을 위반합니까?
OLS 회귀를 실행하려고합니다.
DV : 1 년에 걸친 체중 변화 (초기 체중-최종 체중)
IV : 운동 여부.
그러나 무거운 사람이 얇은 사람보다 운동 단위당 더 많은 체중을 잃는 것이 합리적입니다. 따라서 제어 변수를 포함하고 싶었습니다.
그러나 이제 초기 가중치 를 사용하여 종속 변수 AND를 제어 변수로 계산합니다.
괜찮습니까? 이것이 OLS의 가정을 위반합니까?
답변:
"변경 점수에 대한 독립 변수의 영향을 테스트 할 때 기준 측정 값을 제어 변수로 포함하는 것이 유효합니까?"라는 실제 질문에 대답하려면 대답은 ' 아니요' 입니다. 하여 때문에 답이 아니요 구조 변화 점을 종속 변수로서 사용될 때 기준 점수 해석 불가능한되는 변화 점에서, 에러 항과 기준선 따라서 예상 효과 상관된다.
사용
그런 다음 와 에 대해 를 회귀하는 모델이 있습니다 . T X
정의에 따라 다음과 같습니다.
이제 기준선을 공변량으로 포함 하면 방정식의 양변에 항이 있다는 문제가 있습니다 . 이는 이 본질적으로 오류 용어와 관련되어 있기 때문에 해석 할 수 나타냅니다 .β 3 Y 1
이제 다양한 답변에서 혼란의 일부는 다른 모델이에 대한 동일한 결과를 얻을 것이라는 사실에서 줄기 것 같다 치료 효과 , 내 위의 공식에서. 따라서 변화 수준을 종속 변수로 사용하는 모델의 처리 효과를 "수준"을 사용하는 모델 ( 공변량으로 기준선 을 포함하는 모델)을 사용하는 모델에 대한 처리 효과를 비교한다면 처리 효과에 대한 해석은 같은. 따라 두 모델에서 추론이 그들을 기반으로합니다 그래서 동일합니다, 그리고 (브루스 위버 일부가 SPSS 코드가 아니라 동등성을 입증 게시).Y 1 β 1 T
그래서 일부는 논쟁 할 것입니다 ( Felix는 이 글에서, Bruce Weaver는 SPSS google 그룹 에 대해 논의했습니다) 모델이 동일한 추정 처리 효과를 나타내므로 어느 것을 선택하든 문제가되지 않습니다. 동의하지 않습니다. 변경 점수 모델의 기준선 공변량을 해석 할 수 없으므로 (추정 된 치료 효과가 동일한 지 여부에 관계없이) 기준선을 공변량으로 포함해서는 안됩니다. 변화 점수를 종속 변수로 사용하는 점은 무엇입니까? Felix가 이미 언급했듯이 공변량으로 기준선을 제외한 종속 변수로 변경 점수를 사용하는 모델은 수준을 사용하는 모델과 다릅니다. 명확히하기 위해, 후속 모델은 상이한 치료 효과를 제공 할 것이다 (특히 치료가 기준선과 상관되는 경우).
이것은 선행 문헌에서 "주님의 역설"로 언급되었습니다. 어떤 모델이 맞습니까? 무작위 실험의 경우, Levels 모델이 바람직하다고 말할 것입니다 (좋은 직업 무작위 화를 수행하더라도 평균 치료 효과는 모델간에 매우 가까워 야합니다). 다른 사람들은 레벨 모델이 바람직한 이유에 대해 언급했습니다. Charlie의 답변 은 레벨 모델에서 기준선과의 상호 작용 효과를 추정 할 수 있지만 변경 점수 모델에서는 불가능하다는 점에서 좋은 지적입니다. 매우 유사한 질문에 대한 이 응답 에서 Whuber 는 변화 점수가 어떻게 다른 치료들 사이의 상관 관계를 유도하는지 보여줍니다.
치료가 무작위로 할당되지 않은 상황에서 변화 점수를 종속 변수로 사용하는 모델에 더 많은 고려가 필요합니다. 변경 점수 모델의 주요 이점은 결과의 불변 예측 변수가 항상 제어된다는 것입니다. 따라서 위의 공식에서 는 시간이 지남에 따라 일정하며 (예를 들어, 유전 적 소인이 특정 무게를 가짐), 는 개인이 운동을 선택했는지 여부와 상관이 있습니다 ( 는 관찰되지 않음). 이 경우, 변경 점수 모델이 바람직하다. 치료로의 선택이 기준치와 상관되는 경우에도, 변화 점수 모델이 바람직 할 수있다. 폴 앨리슨은 그의 논문에서X X회귀 분석에서 종속 변수로 점수 변경 은 동일한 예제를 제공합니다 (주제에 대한 나의 관점에 크게 영향을 미쳤으므로이를 읽어 보는 것이 좋습니다).
이것은 무작위 화되지 않은 설정에서 변경 점수가 항상 선호된다는 것은 아닙니다. 기준선이 사후 가중치에 실제로 인과 적 영향을 미칠 것으로 예상되는 경우 레벨 모델을 사용해야합니다. 기준선에 인과 관계 효과가 있고 치료 선택이 기준선과 상관되는 경우 치료 효과는 기준선 효과와 혼동됩니다.
Charlie의 가중치 로그가 종속 변수로 사용될 수 있다는 점을 무시했습니다. 이것이 가능한지 의심 스럽지만 초기 질문에는 다소 비판적 입니다. 변수의 로그를 사용하는 것이 적절할 때 (그리고이 경우에도 여전히 적용되는) 또 다른 질문 이 논의되었습니다. 기록 된 체중을 사용하는 것이 적절한 지 여부를 안내하는 데 도움이되는 이전 문헌이있을 수 있습니다.
소환
Allison, Paul D. 1990. 회귀 분석에서 점수를 종속 변수로 변경합니다 . 사회 방법론 20 : 93-114. 공개 PDF 버전 .
앤디의 대답은 경제학자의 견해 인 것 같습니다. 임상 시험에서 거의 항상 반응 변수의 기본 버전을 조정하여 힘을 크게 증가시키는 것이 허용됩니다. 기준 변수를 조건으로하므로 전체 오류 항과 혼동 될 수있는 '오류 항'이 없습니다. 기본 공변량의 측정 오류가 다른 X와 혼동되어 다른 X의 효과가 왜곡되는 경우 유일한 문제가됩니다. 전체적으로 선호되는 방법은 기준을 조정하고 변경을 계산하지 않고 응답 변수를 모델링하는 것입니다. 이에 대한 한 가지 이유는 변경이 Y의 변환을 얻는 데 크게 의존하고 변경이 일반적으로 회귀 모형에 적용되지 않기 때문입니다. 예를 들어 Y가 서수 인 경우 두 서수 변수의 차이는 더 이상 서 수가 아닙니다.
우리는 @ocram의 추론을 약간 변경하여 를 가질 수있다
이 설정은 시작 무게 가 치료 의 영향이 아니라 무게 의 차이 를 예측한다는 것을 의미합니다 . 이것은 아마도 상호 작용 항, 아마도 요구할 것이다
보시다시피, 상호 작용 항에 대한 교차 부분은 해석하기가 약간 까다로울 수 있지만 관심있는 영향을 줄 수 있습니다.
편집 : Andy W의 주장은 Model C를 떨어 뜨릴 것을 확신했습니다. 다른 가능성을 추가했습니다 : 임의 계수 모델 (일명 다중 레벨 모델 또는 혼합 효과 모델)을 사용한 변경 분석
차이 점수 사용에 대한 많은 과학적 논쟁이있었습니다. 내가 가장 좋아하는 글은 Rogosa (1982, [1])와 Fitzmaurice, Laird, & Ware (2004, [2])입니다.
일반적으로 데이터 분석에는 세 가지 가능성이 있습니다.
모델 A 및 B는 기준선이 변화 점수와 상관 관계가 있거나 (예를 들어, 더 많은 사람들이 더 많은 체중 감소를 가짐) 치료 과제가 기준선과 상관 관계가있는 경우 매우 다른 결과를 생성 할 수 있습니다.
이러한 문제에 대한 자세한 내용은 인용 된 논문 또는 여기 및 여기를 참조하십시오 .
A 또는 B가 선호되는 조건을 실험적으로 비교 한 최근의 시뮬레이션 연구 [3]도있다.
결 측값이없는 완전 균형 설계의 경우, 모델 D는 모델 A와 동일해야합니다. 그러나 사람 변동성에 대한 자세한 정보를 제공하고 더 많은 측정 지점으로 쉽게 확장되며 불균형 데이터가있는 경우 우수한 특성을 갖습니다. 및 / 또는 결 측값.
결론적으로 : 귀하의 경우 기준 (모델 B)에 대해 제어 된 사후 측정을 분석합니다.
[1] Rogosa, D., Brandt, D., & Zimowski, M. (1982). 변화 측정에 대한 성장 곡선 접근법. 심리 게시판, 92, 726-748.
[2] Fitzmaurice, GM, Laird, NM, & Ware, JH (2004). 적용된 종 방향 분석. 뉴저지 호보 켄 : 와일리.
Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.
B와 C의 동등성을 보여주는 누가?
이 질문에 대해서는 Josh Angrist를 참조하십시오 : http://www.mostlyharmlesseconometrics.com/2009/10/adding-lagged-dependent-vars-to-differenced-models/ . 그는 당신의 모델에 지연된 DV를 포함시키는 것에 반대한다. 그의 답변에는 위의 답변에없는 내용이 없지만 질문에 대한 간결한 답변이 도움이 될 수 있습니다.
Glymour et al. (2005)는 변경 점수를 분석 할 때 기준선 조정을 사용하여 해결했습니다. 건강 상태의 변화가 기준선 평가보다 우선하거나 종속 변수에 측정 오차가 큰 경우, 종속 변수에 기준 공변량이 포함되어 있으므로 변경 점수를 사용하는 회귀 모델이 바이어스가 발생할 수 있습니다. Frank Harrell의 답변 "기본 공변량의 측정 오류가 다른 X와 혼동되어 다른 X의 효과가 왜곡되는 경우 유일한 문제가 될 것입니다." Glymour 주소와 동일한 바이어스를 반영 할 수 있습니다.
Glymour (2005) "기준 분석이 언제 변경 분석에 유용한가? 교육 및인지 적 변화의 예. American Journal of Epidemiology 162 : 267-278
오크 람이 올바르지 않습니다. 무게 차이 는 초기 무게를 고려 하지 않습니다 . 구체적으로, 초기 중량은 최종 중량을 빼서 제거된다.
따라서 초기 무게를 제어하면 가정을 위반하지 않는다고 주장합니다.
BMI와 초기 BMI의 차이를 고려할 때 동일한 논리가 적용됩니다.
Andy W의 비평가가 업데이트 된 후에 내가 왜 옳고 Ocram이 잘못되었는지에 대해 좀 더 공식적으로 설명하도록하겠습니다 (적어도 제 시점에서).
이를 고려하려면 모델을 모델에 개별적으로 통합해야합니다 (일반 매개 변수 및 / 또는 상호 작용 항으로).
그것을 관찰하십시오
에 해당
즉, DV로 무게 변화 (종료 무게 대신)를 사용하는 것은 이미 초기 무게를 설명합니다.