모형을 만들 때 통계적으로 유의하지 않은 공변량을 '유지'해야합니까?


39

모형 계산에 여러 공변량이 있으며 모두 통계적으로 유의하지는 않습니다. 그렇지 않은 것을 제거해야합니까?

이 질문은 현상에 대해 설명하지만 ANCOVA에서 공변량의 유의하지 않은 영향을 해석하는 방법은 무엇입니까?

그 질문에 대한 답에는 중요하지 않은 공변량이 제거 될 것을 암시하는 것은 없지만, 지금 당장은 그들이 머물러 있어야한다고 생각하는 경향이 있습니다. 일부 임계 값 (공변량에 적용 할 수없는 것으로 보이는 중요 임계 값)을 초과하지 않는 양을 설명 할 수 있습니다.

이력서에는 공변량이 유의성에 관계없이 유지되어야 함을 암시하는 것으로 보이는 또 다른 질문이 있습니다. (나는 그 질문에 링크하고 싶지만 지금은 다시 그것을 추적 할 수 없었습니다.)

통계적으로 유의하지 않은 공변량을 모형 계산에 유지해야합니까? (어쨌든 공변량이 계산에 의해 모델 출력에 절대 존재하지 않음을 분명히하기 위해이 질문을 편집했습니다.)

합병증을 추가하기 위해 공변량이 데이터의 일부 하위 집합 (별도로 처리해야하는 하위 집합)에 대해 통계적으로 유의하면 어떻게됩니까 ? 이러한 공변량을 유지하는 것이 기본값입니다. 그렇지 않으면 다른 모델을 사용해야하거나 경우 중 하나에서 통계적으로 유의 한 공변량이 누락됩니다. 그러나이 분할 사례에 대한 답변이있는 경우 언급하십시오.


6
일반적으로 말하자면, 데이터가 효과를 지원하지 않더라도 이론적으로 중요하거나 이전 연구에서 중요한 변수를 유지해야한다고 말하고 싶습니다. 더 구체적인 답을 얻으려면 모델과 그 목적을 설명하기 위해 몇 가지 줄을 추가해야한다고 생각합니다 (예 : 위험 요인 식별, 예측하기 ...).
ocram

나는 그것이 달려 있다고 말할 것입니다. 테스트는 단지 지표 일뿐입니다. 작은 의존성이 있어야한다고 생각한다면 모델을 유지하는 것에 대해 생각하십시오. 의존성이 없어야한다고 생각하면 그대로 두십시오.
Bene

자, 당신은 비 의미가 공변량이 고려에서 제외되는 것을 지시 하지 않는다고 말하고 있습니다 . 그래서 당신은 실제로 내 질문에 대답했습니다. 나는 내가 묻고있는 것은 공변량의 통계적 유의성이 그것을 유지하기 위해 필요한 조건인지 ( "공변량의 중요하지 않은 것이 제거되어야한다는 것을 의미 하는가 ...") 귀하의 의견 중 하나를 답변으로 수락하겠습니다.
AM

하지만 그렇게하기 전에 올바른 용어를 사용하고 있는지 확인하고 싶습니다. 원래는 "모델에 유지됨"을 썼지 만 공변량이 절대 모델에 나타나지 않기 때문에 옳지 않은 것 같습니다. " 모델 계산 에서 유지 "(및 " 고려 에서 제거 ")로 설정했지만 더 나은 방법이 있습니까? 공변량이 유지되거나 제거되는 대상에 대한 올바른 용어는 무엇입니까?
오전

3
이러한 선택 절차의 올바른 성능을 검증해야합니다. 다른 사람들은 실패했습니다.
Frank Harrell

답변:


32

이미 몇 가지 좋은 답변을 받았습니다. 공변량을 유지해야하는 이유와 공변량을 삭제해야하는 이유가 있습니다. 대부분의 경우 통계적 중요성이 핵심 요소가되어서는 안됩니다.

  1. 공변량은 반드시 있어야하는 실질적인 중요성을 가질 수 있습니다.
  2. 공변량의 효과 크기는 중요하지 않더라도 클 수 있습니다.
  3. 공변량은 모형의 다른 측면에 영향을 줄 수 있습니다.
  4. 공변량은 가설이 어떻게 표현되었는지의 일부일 수 있습니다.

당신은 매우 탐색 모드에있는 경우 공변량이 문헌에서 중요하지 않습니다 효과의 크기가 작고 공변량이 모델에 거의 영향을 미치지 공변량이 가설에 없었다, 당신은 아마 단순성을 위해 그것을 삭제할 수 .


6
매우 중요하지만 종종 무시되는 상황은 여기에서 # 4로 다뤄지지 만 철자를 다룰 것입니다. 종종 (실제로는 대개) 결과를 비슷한 데이터를 가진 이전 작업자의 결과와 비교해야합니다. 다른 사람들이 모형에 포함 할 가치가있는 특정 공변량을 발견 한 경우 공변량이 (기존의) 유의 수준을 달성했는지 여부에 관계없이 결과를 결과와 비교해야합니다. 여기의 사례는 귀하가 결정한보고 모델 (특히)이 좋지 않은 것으로 결정된보고 모델에 따라 다를 수 있습니다.
Nick Cox

1
나는 '유지'(그리고 처음에 공변량에 대한 많은 p- 값을 만들지 않음)에 확실히 기울고 있었지만, 당신의 대답은 소수의 사람들이 빼낼 수있는 아주 좋은 체크리스트 (잘 ... 둘)를 만듭니다. 효과 크기는 내가 고려하지 않은 것이며, 가설을 고려하는 동안 @NickCox가 언급 한 이유와 단순히 낚시를 방해하기 위해 포함시킨 것을 매우 좋아합니다.
오전

25

긴 대답은 "예"입니다. 중요하지 않은 예측 변수를 제거해야하는 몇 가지 이유와 그렇지 않은 이유가 많이 있습니다. 그것들을 해석하는 한, 다른 예측 변수를 해석 할 수있는 것처럼 값을 무시하면 됩니다. 흥미로운 예측 변수 범위에 대한 효과에 대한 신뢰 구간이 있습니다.P


10
긴 대답은 "예"입니다! +1과 LOL.
Peter Flom-Monica Monica 복원

p- 값이 아닌 경우 예측 변수를 제거해야하는 다른 이유는 무엇입니까? 신뢰 구간 해석에 대해 언급했지만 "관심 범위"가 0 인 것처럼 보입니다. 이는 사람들이 CI를 p- 값 (0 포함 또는 제외)과 매우 유사하게 해석한다는 것을 의미합니다.
Mark White

1
통계 속성이 왜곡 될 때 예측 변수를 제거해야하는 이유는 무엇입니까? 귀하의 질문과 "제로"에 대해 명확하지 않습니다.
Frank Harrell

7

유용한 통찰력 중 하나는 통계적으로 말하면 공변량에 대해 구체적으로 아무것도 없다는 것입니다. 예를 들어 공변량을 회귀 공식으로 작성하는 데 도움을 참조하십시오 . 또한 covariate태그 가없는 이유를 설명 할 수 있습니다 . 결과적으로, 선형 모델에서 중요하지 않은 항에 대한 여기 및 다른 곳의 자료는 ANCOVA가 명시 적으로 언급되지 않은 경우에도 단계별 회귀에 대한 잘 알려진 비평가와 관련이 있습니다.

일반적으로 의미만으로 예측 변수를 선택하는 것은 좋지 않습니다. 어떤 이유로 든 모델을 미리 지정할 수없는 경우 다른 접근 방식을 고려해야하지만, 우선 이러한 방법을 포함시키려는 경우 데이터를 적절하게 수집하고 특정 문제 (예 : 공선 성)에 직면하지 않으면 그대로 두십시오.

그것들을 지키는 이유와 관련하여, 당신이 제기 한 반대 의견은 나에게 들리는 것 같습니다. 또 다른 이유는 중요하지 않은 예측 변수를 제거하면 모형을 기반으로 추론을 바이어스하기 때문입니다. 이 모든 것을 보는 또 다른 방법은 사실 후에 이러한 공변량을 제거하여 얻을 수있는 것을 묻는 것입니다.


4

이 질문에 답하려면 목표에 대한 자세한 정보가 필요합니다. 회귀는 두 가지 주요 목적으로 사용됩니다.

  1. 예측
  2. 추론

예측은 표본에없는 관측치에 대해 결과 변수의 값을 추측 할 수있는 목표입니다 (보통 표본 데이터의 범위 내에 있지만 일반적으로 "예측"이라는 단어를 사용함). 예측은 광고 목적, 재무 등에 유용합니다. 일부 결과 변수를 예측하는 데 관심이 있다면 제공 할 것이 거의 없습니다.

돈이있는 곳이 아니라도 재미가있는 곳이 유추입니다. 추론은 특정 모델 매개 변수에 대한 결론을 내리려고하는 곳입니다. 일반적으로 한 변수가 다른 변수에 미치는 인과 적 영향을 결정합니다. 일반적인 인식에도 불구하고 회귀 분석은 인과 추론에 충분하지 않습니다. 회귀가 인과 관계 효과를 포착하는지 여부를 알기 위해서는 항상 데이터 생성 프로세스에 대해 더 많이 알아야합니다. 회귀에서 인과 적 추론의 주요 문제는 오류의 조건부 평균 (회귀 기의 조건부)이 0인지 여부입니다. 회귀 변수의 p- 값으로는 알 수 없습니다. 편견이 없거나 일관된 회귀 추정기가있을 수 있지만 회귀 분석에 명백한 제어를 던지고 중요한 것을 얻기를 기대하는 것보다 훨씬 많은 노력이 필요합니다.마스터 링 통계 : 원인에서 결과로의 경로무해한 계량 경제학 ). 마스터 링 메트릭 은 더 읽기 쉽고 저렴하지만 회귀 방법을 다루지 않고 의미를 나타내는 것임을 경고합니다. 좋고 나쁜 관찰 연구 디자인의 예를 잘 다루기 위해 David Freedman (1991)의 "통계 모델과 구두 가죽", 사회 학적 방법론 , 21 권 (매혹적인 예를 들어 짧고 쉽게 읽을 수 있음)을 추천합니다.

따로 : 대부분의 대학 과정에서 우수한 연구 설계에 대한 통계적 기술에 대한 집착은 교육학적인 일입니다.

이 문제의 현재 중요성에 동기를 부여하는 두 번째 측면 : 예측과 추론의 차이는 빅 데이터가 과학을 대체하지 않는 이유입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.