회귀 모형의 변수에 대한 제어와 연구 설계의 변수에 대한 제어의 차이점은 무엇입니까?

연구 설계에서 변수를 제어하는 것이 회귀 모델에서 사후 제어를하는 것보다 오류를 줄이는 데 더 효과적이라고 생각합니다.

이 "통제"의 두 가지 사례가 어떻게 다른지 공식적으로 설명해 주시겠습니까? 오류를 줄이고 더 정확한 예측을하는 데 얼마나 효과적입니까?

regression experiment-design controlling-for-a-variable

— mrt
소스

"연구 설계에서 변수 제어"란 모든 연구 단위에서 변수를 일정하게 유지하거나 변수를 조작하여 해당 변수의 수준이 각 연구 단위에 대해 독립적으로 설정됨을 의미한다고 가정합니다. 즉, 연구 설계에서 변수를 제어한다는 것은 실제 실험을 수행하고 있음을 의미합니다 . 이것의 장점은 인과 관계 를 유추하는 데 도움이 될 수 있다는 것 입니다.

이론적으로 회귀 모델에서 변수를 제어하면 인과 관계 를 유추하는 데 도움이 될 수 있습니다 . 그러나 응답에 직접 인과 관계가있는 모든 변수를 제어하는 경우에만 해당됩니다. 이러한 변수를 생략하고 (아마도 포함하지 않았을 수도 있음) 다른 변수와 상관 이 있으면 인과 추론이 바이어스 되고 부정확합니다. 실제로, 우리는 모든 관련 변수를 알지 못하므로 통계 제어는 확인할 수없는 큰 가정에 의존하는 상당히 까다로운 노력입니다.

그러나 귀하의 질문은 인과 관계를 유추하지 않고 "오류를 줄이고 더 정확한 예측을 산출"하는 것에 대해 묻습니다. 이것은 다른 문제입니다. 스터디 디자인을 통해 주어진 변수를 일정하게 만들면 해당 변수로 인한 응답의 모든 변수가 제거됩니다. 반면에 변수를 간단히 제어하면 샘플링 오류 가 최소 가 되는 영향을 추정 할 수 있습니다 . 다시 말해, 통계적 제어는 장기적으로 샘플의 잔차 분산을 줄이는 데있어 좋지 않습니다.

그러나 오류를 줄이고보다 정확한 예측을 얻는 데 관심이있는 경우 아마도 샘플 내의 정밀도가 아니라 주로 샘플 속성을 신경 쓰게됩니다. 그리고 그 안에 문지름이 있습니다. 일정한 형태로 유지하는 등의 형태로 변수를 조작하여 변수를 제어하면 원래의 자연 관찰보다 인공적인 상황을 만듭니다. 즉, 실험은 관찰 연구보다 외부의 유효성 / 일반화 가 적은 경향이 있습니다 .

확실하지 않은 경우, 일정한 것을 유지하는 실제 실험의 예는 모두 유 전적으로 동일한 근친 교배 마우스를 사용하여 마우스 모델에서 치료를 평가하는 것일 수 있습니다. 반면에 변수를 제어하는 예는 더미 코드로 질병의 가족 병력을 나타내고 다중 회귀 모델에 해당 변수를 포함하는 것일 수 있습니다 (참조 : 하나의 "다른 변수에 대한 제어는 정확히 어떻게 수행합니까?" 및 방법 두 번째 IV를 추가하면 첫 번째 IV를 중요하게 만들 수 있습니까? ).

— gung-복직 모니카
소스

좋은 설명! @gung

— Aaron Zeng