“모든 관련 예측 변수”를 포함시켜야합니까?


15

추론에 회귀 모델을 사용하는 기본 가정은 "모든 관련 예측 변수"가 예측 방정식에 포함되어 있다는 것입니다. 중요한 실제 요인을 포함하지 않으면 계수가 바이어스되어 부정확 한 추론 (즉, 변수 바이어스 생략)이 발생한다는 이론적 근거가 있습니다.

그러나 연구 관행에서 "모든 관련 예측 변수" 와 유사한 것을 포함한 사람 적이 없습니다 . 많은 현상에는 수많은 중요한 원인이 있으며, 불가능하지는 않더라도 모두 포함시키는 것은 매우 어려울 것입니다. 커프스가 아닌 예는 우울증을 결과로 모델링하는 것입니다 . 부모 기록, 성격 특성, 사회적지지, 소득, 상호 작용 등 "모든 관련 변수"를 포함하는 모델에 가까운 것은 없습니다 . 기타...

더욱이, 이러한 복잡한 모형을 적합하면 표본 크기가 매우 크지 않은 한 추정치가 매우 불안정해질 수 있습니다.

내 질문은 매우 간단합니다. "모든 관련 예측 변수를 포함"한다는 가정 / 조언은 "우리가"말하지만 실제로 의미하지 않는 것입니까? 그렇지 않다면 왜 실제 모델링 조언으로 제공합니까?

그리고 이것이 대부분의 계수가 오해의 소지가 있음을 의미합니까? (예 : 여러 예측 변수 만 사용하는 인격 요인 및 우울증에 대한 연구). 다시 말해, 우리 과학의 결론에있어 이것이 얼마나 큰 문제입니까?


6
이 논증의 한 판은 19 세기 내내 심리학, 경제학 및 사회 과학에서 격렬 해졌다. 과학자들은 사람들이 너무 다양하고 복잡하기 때문에 통계 방법이 사람과 사회 시스템에 적용 할 수 없다고 주장했다. 그 세기가 끝날 무렵 유틸리티는 철학을 능가했습니다. 모든 예측 변수를 포함하지 않아도 많은 것을 배울 수 있습니다. 제목 문구에 "관련"을 포함시키는 데 지혜가 있습니다.
whuber

답변:


18

당신은 옳습니다-우리는 "모든 관련 예측 자"라고 말하는 것이 현실적이지 않습니다. 실제로 의 주요 변동 원인을 설명하는 예측 변수를 포함하면 만족할 수 있습니다 . 관찰 연구에서 위험 요소 또는 치료에 대한 추론을 이끌어내는 특별한 경우에는 거의 충분하지 않습니다. 그러기 위해서는 결과와 관련이 있을 수 있고 치료 선택 또는 공개하려는 위험 요소 와 관련 이 있을 수 있는 변수를 포함하여 혼란에 대한 조정이 매우 공격적 이어야합니다.와이

정규 선형 모형을 사용하면 생략 된 공변량, 특히 포함 된 공변량에 직교하는 경우 오류 항을 확대하는 것으로 생각할 수 있습니다. 비선형 모델 (로지스틱, Cox, 기타 여러 가지)에서 변수를 생략하면 모델에 포함 된 모든 변수의 효과를 바이어스 할 수 있습니다 (예를 들어 확률 비율의 비 축소 성으로 인해).


유용한 정보를 주셔서 감사합니다. 치료 효과를 평가하는 것 외에도이 문제의 실제적인 의미에 대해 더 많이 묻고 싶습니다. 논문을 검토했는데 분명하게 중요한 예측 변수가 생략 된 경우 거부 근거가 될 수 있습니까? 나는이 문제에 대해 들어 본 적이 없다. b) 사회 과학자들은 종종 그들이 알고 싶어하는 예측 자 (예 : 연구 주제)를 포함하고 "이미 알려진"요소를 무시한다. 보다 효율적인 측정의 필요성에 따라).
ATJ

예를 들어, 내생 변수에 대한 단일 예측 변수 만있는 잠재 변수 모델을 보는 것은 드문 일이 아닙니다. 이것이 통계 분야와 실제 주제 영역에서의 구현 사이의 격차를 말하는가?
ATJ

6
아마 그렇습니다. 이전의 질문에 대한 근거는 포함 된 변수에 대한 다른 해석을 주었거나 모델을 크게 변화시킨 중요한 변수를 생략하는 것입니다. 한 번은 피험자가 담배를 피우지 않았는지 여부에 관계없이 폐암 위험에 관한 논문을 검토 한 결과 저자는 흡연 용량 (예 : 팩 년)을 평가하지 않았습니다. 나는 완전히 거부 할 것을 권장했다.
Frank Harrell

9

그렇습니다. 모든 "관련 변수"를 포함해야하지만 현명해야합니다. 당신은 당신의 현상의 영향을 관련없는 것들로부터 격리시키는 실험을 구성하는 방법을 생각해야합니다. 통계에 들어가기 전에 통계가 아닌 도메인에서 많은 노력을 기울여야합니다.

나는 당신이 모든 관련 변수를 포함시키는 것에 대해 냉소하지 말 것을 권장합니다. 그것은 고귀한 목표 일뿐만 아니라 종종 가능하기 때문입니다. 우리는 단지 그것을 말하기 위해 이것을 말하지 않습니다. 우리는 정말로 그것을 의미합니다. 실제로, 모든 관련 변수를 포함 할 수있는 실험 및 연구를 설계하는 것은 과학을 정말 흥미롭게 만들고 기계적 보일러 판 "실험"과는 다른 것입니다.

내 말에 동기를 부여하기 위해 갈릴레오가 어떻게 가속을 연구했는지 예를 들어 보겠습니다. 실제 실험에 대한 그의 설명은 다음과 같습니다 ( 이 웹 페이지에서 ).

길이가 약 12 ​​큐빗, 폭이 1/2 큐빗, 두께가 3 개인 손가락 조각 조각을 채취했습니다. 그 가장자리에는 한 손가락보다 약간 더 많은 수로를 채널을 자르고; 이 그루브를 매우 똑 바르고 매끄럽게 닦았으며 가능한 한 매끄럽고 광택이 나는 양피지로 안감을 씌우면 서 단단하고 매끄럽고 둥근 청 동구를 굴 렸습니다. 이 보드를 경 사진 위치에 놓았을 때 한쪽 끝을 다른 쪽보다 2 ~ 3 큐빗 높이면 채널을 따라 방금 말한 것처럼 공을 굴렀습니다. 하강하기 위해. 두 관측치 사이의 편차가 펄스 비트의 10 분의 1을 초과하지 않도록 정확도로 시간을 측정하기 위해이 실험을 두 번 이상 반복했습니다. 이 작업을 수행하고 신뢰성을 확보 한 후 이제 채널 길이의 1/4 만 공을 굴 렸습니다. 하강 시간을 측정 한 결과 정확히 전자의 절반을 발견했습니다. 다음으로 우리는 전체 거리의 시간을 절반의 시간, 2/3, 3/4의 시간, 또는 실제로 분수와 비교하여 다른 거리를 시도했습니다. 이러한 실험에서 전체 백 번 반복, 우리는 항상 가로 지르는 공간이 시간의 제곱과 같이 서로에게 있다는 것을 발견했으며, 이것은 비행기의 모든 성향, 즉 채널의 경사에 대해 사실이었습니다. 공. 우리는 또한 비행기의 다양한 경사에 대한 하강 시간이 서로 정확하게 그 비율을 지니고 있음을 관찰했습니다.

시간 측정을 위해, 우리는 높은 위치에 놓인 큰 물 용기를 사용했습니다. 이 용기의 바닥에는 작은 직경의 파이프가 납땜되어 채널의 전체 길이 또는 길이의 일부에 관계없이 각 하강시 작은 유리에 수집 된 얇은 물 제트를 제공합니다. 이렇게 수집 된 물은 각각의 강하 후에 매우 정확한 균형으로 칭량되었다; 이러한 가중치의 차이와 비율은 우리에게 시간의 차이와 비율을 제공했으며,이 작업은 여러 번 반복되었지만 결과에 눈에 띄는 불일치가 없었습니다.

=2,
0=10나는나는0/나는02/나는2
0나는=02나는2

그가 시간을 어떻게 측정했는지주의를 기울이십시오. 자연스럽지 않은 과학이 변수를 측정하고 "고객 만족"또는 "유틸리티"를 생각하는 방식을 생각 나게하는 것은 너무나 조잡합니다. 그는 측정 오차가 단위 시간의 10 분의 1 (btw) 내에 있다고 언급했다.

그는 모든 관련 변수를 포함 했습니까? 그렇습니다. 이제 여러분은 모든 몸이 중력에 의해 서로에게 끌린다는 것을 이해해야합니다. 따라서 이론상 공의 정확한 힘을 계산하려면 우주의 모든 몸을 방정식에 추가해야합니다. 더욱 중요한 점은 표면 저항, 공기 저항, 각 운동량 등을 포함하지 않았다는 것입니다.이 모든 것이 측정에 영향을 미쳤습니까? 예. 그러나 그들이 공부하고있는 재산의 영향을 격리하여 영향을 줄이거 나 제거 할 수 있었기 때문에 연구 대상과 관련이 없었습니다.

2


그의 시간 측정 방법에 대해 그렇게 조잡한 것은 무엇입니까? 설비는 물이 큰 용기를 떠나 컵으로 들어가는 특정 속도를 가질 것입니다. 용기에 많은 양의 물이 포함되어 있다고 가정하면 그 비율은 최소로 변경됩니다. 더 중요한 것은 실험 전반에 걸쳐 일관성을 유지한다는 것입니다. 그 당시에는 스톱워치와 멋진 자동 타이머가 없었기 때문에 실제로 매우 우아한 방법입니다.
JAB

@JAB, 물론 시계를 멈추거나 시간을 측정하는 현대적인 방법과 비교할 때만 조잡합니다. 갈릴레오 시대의 최첨단 시간 측정 기술을 감안할 때 매우 우아하다는 것이 절대적으로 맞습니다. 그러나 제가 한 요점은 겉보기에는 정밀도가 낮더라도 (1/10 간격) 시간과 거리의 관계를 관찰하기에 충분하다는 것입니다
Aksakal

물리학에서 어리석은 측정 방법의 가장 좋아하는 예 중 하나 인 @JAB은 Cherenkov가 어떻게 방사선을 발견했는지에 관한 것입니다 . 그는 눈이 어두워 질 때까지 어두운 방에 앉아 있었다가 빛이 사라질 때까지 빛이 들어오는 구멍을 열거 나 닫았습니다. 그는 방사선 수준을 탐지하기 위해 얼마나 많은 구멍이 열려 있는지 기록하고있었습니다. 분명히 사람의 눈은 소수의 광자에서 측정 된 빛의 차이를 감지 할 수 있습니다! 용지 길이가 3 페이지입니다.
Aksakal

6

회귀 모형의 가정이 완벽하게 유지 되려면 모든 관련 예측 변수가 포함되어야합니다. 그러나 모든 통계 분석에서 가정이 완벽하지 않으며 통계 실무의 대부분은 "충분히 근접"에 근거합니다.

실험 설계 및 적절한 랜덤 화를 사용하면 모형에 포함되지 않은 항의 효과를 종종 무시할 수 있습니다 (랜덤 화 확률과 동일하다고 가정). 그러나 회귀는 일반적으로 모형에 포함되지 않은 모든 가능한 변수를 설명 할 수있는 완전 무작위 추출이 불가능한 경우에 사용되므로 질문이 중요해집니다.

거의 모든 회귀 모형에 잠재적 예측 변수가 누락되었을 수 있지만, 더 이상 설명이 없으면 "모름"으로 작업 통계학자가 계속 작업 할 수 없으므로 최선을 다한 다음 그 차이를 얼마만큼 해결하려고합니까? 가정과 현실 사이의 결과는 우리의 결과에 영향을 미칠 것입니다. 어떤 경우에는 가정과의 차이가 거의 차이가 없으며 그 차이에 대해 크게 걱정하지 않지만 다른 경우에는 매우 심각 할 수 있습니다.

모형에 포함되지 않은 예측 변수가있을 수 있다는 것을 알고있을 때 민감도 분석을 수행하는 옵션이 있습니다. 이는 측정되지 않은 변수와의 잠재적 관계에 따라 가능한 바이어스의 양을 측정합니다. 이 종이:

Lin, DY 및 Psaty, BM 및 Kronmal, RA. (1998) : 관측 연구에서 측정되지 않은 혼란에 대한 회귀 결과의 민감도 평가. 생체 인식, 54 (3), 9 월, pp. 948-963.

민감도 분석 도구 및 예를 제공합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.