통계적으로 유의하지 않지만 회귀에 변수를 포함시켜야하는 시점은 언제입니까?


37

나는 계량 경제학 및 R에 대한 경험이있는 경제학 학생입니다. 통계적으로 유의하지 않더라도 회귀에 변수를 포함시켜야하는 상황이 있는지 알고 싶습니다.


1
의료 연구에서는 질적 상호 작용이 포함 된 경우 포함시킬 것입니다. 전에 여기에서 언급 한 Lacey Gunter의 작업을 참조하십시오. 또한 Chakraborty와 Moodie의 저서도 Springer가 2013 년에 출판했습니다. 제목은 역동적 인 치료 요법을위한 통계적 방법 : 강화 학습, 인과 추론 및 개인화 된 의학입니다.
Michael Chernick

11
통계적 유의성은 완전히 임의적이라는 점도 고려하십시오. 중요한 것은 무엇입니까? 0.05? 0.1? 0.001? 이론적 기초가 예측자를 포함하기 위해 존재한다면, 그것을 유지하기에 충분한 이유입니다.
애쉬

2
"통계적으로 유의미하지 않다"고 말할 때 5 %의 신뢰 수준에 있다는 것은 자의적 선택입니까? (그리고 변수가 많을수록 다중 테스트 문제가 발생합니다).
smci

1
@smci 0.05 = 5 % 유의 수준 95 % 신뢰 수준에 해당합니다. 같은 문장에서 용어를 혼합하지 않아도됩니다. 신뢰 구간이없는 유의미한 절차가 있으므로 일반적으로 더 적절한 항을 사용하는 것이 가장 쉽습니다. 소개 수준에서 링크를 설명 할 때는 예외입니다.
Nick Cox

답변:


30

예!

계수가 통계적으로 0과 구별 할 수 없다는 것은 계수가 실제로 0이며 계수가 관련 이 없음을 의미하지는 않습니다 . 통계적 유의성에 대한 효과가 임의의 컷오프를 통과하지 못한다고해서 제어를 시도해서는 안된다는 의미는 아닙니다.

일반적으로, 문제와 연구 설계는 회귀 자로 포함 할 항목을 안내해야합니다.

몇 가지 간단한 예 :

그리고 이것을 철저한 목록으로 보지 마십시오 . 더 많은 것을 만들어내는 것이 어렵지 않습니다 ...

1. 고정 효과

이 문제가 자주 발생하는 상황은 고정 효과 가있는 회귀입니다 .

패널 데이터가 있고 모델에서 를 추정한다고 가정 해 보겠습니다 .b

yit=bxit+ui+ϵit

가 고정 효과로 취급 되는 보통 최소 제곱으로이 모델을 추정하는 것은 각 개별 대한 표시 변수 를 사용하여 보통 최소 제곱을 실행하는 것과 같습니다 .uii

어쨌든 요점은 변수 (즉, 지표 변수의 계수)가 종종 잘못 추정된다는 것입니다. 개별 고정 효과 는 종종 통계적으로 중요하지 않습니다. 그러나 고정 효과를 고려하는 경우 회귀 분석에 모든 지표 변수를 계속 포함시킵니다.uiui

(대부분의 통계 패키지는 내장 방법을 사용할 때 개별 고정 효과에 대한 표준 오류조차 제공하지 않습니다. 실제로 개별 고정 효과의 중요성에 대해서는 신경 쓰지 않습니다. 아마도 집단적 중요성에 대해 신경 쓸 것입니다 .)

2. 함께가는 기능 ...

(a) 다항식 곡선 피팅 (설명에서 모자 팁 @NickCox)

차 다항식을 일부 곡선에 맞추는 경우 거의 항상 하위 다항식 항이 포함됩니다.k

예를 들어 2 차 다항식을 피팅하는 경우 다음을 실행합니다.

yi=b0+b1xi+b2xi2+ϵi

일반적으로 을 강제 실행하고 대신 를 실행하는 것은 매우 기괴합니다.b1=0

yi=b0+b2xi2+ϵi

그러나 뉴턴 역학의 학생들은 예외를 상상할 수 있습니다.

(b) AR (p) 모델 :

AR (p) 모형을 추정하고 하위 항목도 포함한다고 가정 해 보겠습니다. 예를 들어 AR (2)의 경우 다음을 실행합니다.

yt=b0+b1yt1+b2yt2+ϵt

그리고 실행하는 것이 기괴합니다 :

yt=b0+b2yt2+ϵt

(c) 삼각 함수

@NickCox가 언급했듯이, 와 용어는 비슷하게 어울리는 경향이 있습니다. 이에 대한 자세한 내용은 이 백서를 참조하십시오 .cossin

더 넓게...

이론적으로 정당한 이유가있을 때 오른쪽 변수를 포함하려고합니다.

그리고 여기 및 StackExchange 전체의 다른 답변 에서처럼 단계적 변수 선택 은 수많은 통계적 문제를 일으킬 수 있습니다.

또한 다음을 구분하는 것이 중요합니다.

  • 작은 표준 오차로 0과 통계적으로 구별 할 수없는 계수 .
  • 표준 오차 가 경우 통계적으로 0과 구별 할 수없는 계수 .

후자의 경우 계수가 중요하지 않다고 주장하는 것은 문제가됩니다. 단순히 측정이 잘못되었을 수 있습니다.


첫 번째 예에 따라 터치, 우리는 계속 이유 모델로는 해석 것 같다 변경 여부를 모델에서인지. (예를 들어 en.wikipedia.org/wiki/Partial_regression_plot을 참조하십시오- " 의 선형 효과를 제어하는"와 같은 문구를 사용합니다 ). 이 상황에서 우리는 모델의 의미에 를 가지고 있지 않으며 , 그것이 우리에게 제공하는 해석을 위해 가지고 있습니다. uibuiuiui
user795305

5
그럼에도 불구하고 이미 너무 많이 겹치는 좋은 답변이 여기에 있습니다. 다항식 피팅 : 가장 일반적으로 2 차는 거의 항상 선형 및 제곱 항의 이중 행위로 피팅되어야합니다. 기존 수준에서 단 하나의 항만 유의하더라도 결합 효과가 중요합니다. 삼각법 예측 변수 마찬가지로, 사인과 코사인은 일반적으로 일반적인 수준에서 자격을 갖추지 못하더라도 함께 속합니다. 이와 같이 이중 행위를 장착해야합니다.
Nick Cox

2
@NickCox 이것은 커뮤니티 위키이며 귀하의 요점은 여기 제기 된 것과 직접적으로 관련이 있기 때문에 귀하의 의견은 적절한 시점에 답변으로 편집 될 가치가 있다고 생각합니다. 내 의견으로는 단순한 의견을 남기는 것이 너무 중요합니다. 비록 당신이 독립형 답변으로는 최고가 아니라는 것이 옳다고 생각합니다
Silverfish

@Silverfish Matthew는 복사를 환영합니다. 그러나 그것을 편집하는 것은 약간 어려워 보입니다.
Nick Cox

1
@NickCox Haha, 상관 없어요. :) 나는 당신의 제안을 추가하고 자유롭게 편집하십시오!.
Matthew Gunn

14

네, 있습니다. 통계적으로 미미한 수준에서도 의미있는 방식으로 반응 변수와 상관 관계가있는 변수는 포함되지 않은 경우 회귀를 혼란스럽게 할 수 있습니다. 이를 규격 미달이라고하며, 그렇지 않은 경우 정확하지 않은 모수 추정값으로 이어집니다.

https://onlinecourses.science.psu.edu/stat501/node/328

위에서 :

회귀 방정식에 하나 이상의 중요한 예측 변수가없는 경우 회귀 모델이 지정되지 않습니다 (결과 2). 불특정 모델은 편향 회귀 계수와 편향 반응의 예측을 생성하기 때문에이 상황은 아마도 최악의 시나리오 일 것입니다. 즉, 모형을 사용할 때 모집단 경사와 모집단 평균을 지속적으로 과소 평가하거나 과대 평가합니다. 이미 나쁜 문제를 더욱 악화시키기 위해, 평균 제곱 오차 MSE는 σ²를 과대 평가하는 경향이있어서, 예상보다 더 넓은 신뢰 구간을 산출합니다.


4
그것은 사실이 아닙니다. 혼란스러운 변수가 되려면 설명 된 변수 설명 변수가 필요합니다 . 설명 적 변수 원인의 관심 변수, 그것이 결과에 영향을 미치는 경우, 그것은 개입 변수이고, 당신은해야 하지 (당신이 총 효과를 분해하지 않으려면) 그것을 제어 할 수 있습니다.
Maarten Buis

1
이것은 혼동 통제의 주제에 대한 매우 부적절한 토론입니다. 결과와의 상관 관계는 혼란을 유발하기에 충분한 조건이 아니며 중재자를 제어하여 인과 모델을 잘못 구체화 할 수 있습니다. "흡연 중단은 관상 동맥 동맥 칼슘 (CAC)을 조절 한 후 심혈관 질환 위험을 감소시키지 않습니다"와 같은 오류를 초래합니다. CAC는 흡연이 심장병을 일으키는 주요 방법입니다. 진주의 인과 관계, 2 판, 3 장 3 절을 참조하십시오.
AdamO

자유롭게 편집하십시오. 나는 그가 나의 간결함이 심한 부정확성을 가져왔다면 사과에서 그 종류의 깊이를 찾고 있다고 생각하지 않았습니다.
doubletrouble

11

일반적으로 유의성으로 인해 선형 회귀 변수를 포함하거나 제외하지 않습니다. 선택한 변수가 회귀 기준의 (양호한) 예측 변수라고 가정하기 때문에 변수를 포함시킵니다. 즉, 예측 변수 선택은 이론을 기반으로합니다.

선형 회귀 분석에서 통계적으로 유의하지 않은 것은 다음 두 가지를 의미 할 수 있습니다.

  1. 중요하지 않은 예측 변수는 기준과 관련이 없습니다. 그것들을 제외 시키지만 무의미하다는 것은 그들이 관련이 없다는 것을 증명하지는 않는다는 것을 명심하십시오. 이론을 확인하십시오.
  2. 예측 변수는 다른 예측 변수의 함수로 표현 될 수 있기 때문에 중요하지 않습니다. 그런 다음 예측 변수 집합을 다중 공선이라고합니다. 이것은 어떤 식 으로든 예측자를 "나쁘게"만들지 않고 불필요한 것으로 만듭니다.

중요하지 않은 예측 변수를 배제하는 유효한 이유는 기준 편차 또는 대부분을 설명하는 예측 변수의 가장 작은 하위 집합을 찾고 있기 때문입니다. 발견 한 경우 이론을 확인하십시오.


[P] 회귀 기준의 결정자 ? 이 문구를 바꾸고 싶을 수도 있습니다.
Richard Hardy

8

계량 경제학에서는 이것이 좌우로 일어난다. 예를 들어, 분기 별 계절성 인형 Q2, Q3 및 Q4를 사용하는 경우 종종 그룹별로 중요하지만 일부는 개별적으로 중요하지 않습니다. 이 경우 일반적으로 모두 보관하십시오.

또 다른 일반적인 경우는 상호 작용입니다. 주요 효과 는 중요하지 않지만 상호 작용 는 중요한 모델을 고려하십시오 . 이 경우 주요 효과를 유지하는 것이 일반적입니다. 떨어 뜨리지 말아야 할 이유는 여러 가지가 있으며 그 중 일부는 포럼에서 논의되었습니다.z x zyxzzxz

업데이트 : 또 다른 일반적인 예는 예측입니다. 계량 경제학은 보통 경제학과의 추론 관점에서 가르칩니다. 추론 관점에서 p- 값과 중요성에 많은 관심이 있습니다. 왜냐하면 무엇이 무엇을 일으키는 지 이해하려고하기 때문입니다. 예측할 때는 모델이 관심 변수를 얼마나 잘 예측할 수 있는지가 중요하기 때문에이 점에 중점을 두지 않습니다.

이것은 최근에 경제학에 접어 들고있는 기계 학습 응용 프로그램 인 btw와 유사합니다. 예측하기 어려운 모든 중요한 변수가 포함 된 모형을 가질 수 있습니다. ML에서는 종종 소위 "오버 피팅"과 관련이 있습니다. 예측에서 이러한 모델을 거의 사용하지 않습니다.


1
이것은 어떤 시점에서 약간 과장된 것 같습니다. 예를 들어, 교과서에서 비 경제학자로서 적어도 수십 년 동안 경제학자에게 예측이 널리 가르쳐 져 왔다는 것은 나에게도 분명하다. "최근"(정확히 의미합니까) 증가했는지 여부는 내부자에게 맡기는 더 미묘한 지점입니다.
Nick Cox

@NickCox는 커리큘럼에 전혀 예측이없는 것처럼 들렸는데, 이는 사실이 아닙니다.
Aksakal

7

두 가지 다른 질문을합니다.

  1. 통계적 중요성은 언제 중요하지 않습니까?
  2. 통계적으로 유의하지 않지만 회귀에 변수를 포함시켜야하는 시점은 언제입니까?

수정 : 원래 게시물에 대해서는 사실이지만 수정 후에는 더 이상 사실이 아닐 수 있습니다.


Q1에 관해서는 그것이 너무 넓은 국경에 있다고 생각합니다. 가능한 많은 답변이 있으며 일부는 이미 제공되었습니다. 또 다른 예는 예측을위한 모델을 구축 할 때입니다 (설명은 아래에 인용 된 출처 참조).


Q2와 관련하여 통계적 유의성은 모델 구축의 올바른 기준이 아닙니다. Rob J. Hyndman은 자신의 블로그 게시물 "변수 선택에 대한 통계 테스트" 에서 다음을 작성합니다 .

통계적 유의성은 일반적으로 변수를 더 잘 사용해야하는 많은 사람들이 정확히이 목적으로 변수를 사용해야한다는 사실에도 불구하고 변수가 모델에 포함되어야하는지 여부를 결정하기위한 좋은 근거가 아닙니다. <...> 통계 테스트는 변수를 선택하지 않고 가설을 테스트하도록 설계되었습니다.

또한 순전히 우연히 통계적으로 유의 한 일부 변수 (유의 수준 선택에 의해 제어되는 확률)를 찾을 수도 있습니다. 변수가 통계적으로 유의하다는 관측으로는 변수가 모형에 속한다고 결론을 내릴 수 없습니다.


4

다른 "예"를 추가하겠습니다. 공변량 선택의 주요 고려 사항은 항상 통계가 아니라 영역 지식이라는 점을 항상 배웠습니다. 예를 들어, 생물 통계학에서 개인의 건강 결과를 모델링 하는 경우 회귀 분석의 내용 에 관계없이 연령, 인종 및 성별을 모델에 포함시키지 않는 좋은 논증이 필요합니다.

또한 모델의 목적에 따라 다릅니다. 목적이 결과와 가장 관련이있는 요소를 더 잘 이해하고 있다면, 비유적인 모델을 만드는 데에는 몇 가지 장점이 있습니다. 예측에 관심이 있고 이해에 신경 쓰지 않는다면 공변량을 제거하는 것이 더 작은 관심사 일 수 있습니다.

- 당신이있는 거 계획 변수 선택에 대한 통계를 사용하는 경우 (마지막, 프랭크 하렐이 주제에 무슨 얘기 체크 아웃 http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ 그의 책 회귀 모델링 전략 . 당신이 사용 단계적 또는 최선의 예측을 선택하는 유사한 통계 기반의 전략을했습니다 시간에 의해 간단히, 다음, "?이 좋은 예측 인자는"모든 테스트는 정말 바이어스이다 -의 과정 들은 ' 좋은 예측 변수를 사용하려면 해당 기준에 따라 선택 했으므로 해당 예측 변수의 p 값이 잘못되었습니다.)


1
@EconJohn 그리고 모형 F 통계, 및 효과는 참 예측 변수와 거짓 예측 변수를 동일하게 보유 할 가능성이 있고 참 예측 변수와 거짓 예측 변수를 제거 할 가능성에 대해 거짓으로 높고 단계적으로 선택된 모형을 추정합니다. R2
Alexis

4

"통계적 무의미"의 결과가 진정으로 말하는 유일한 것은, 유형 1 오류의 선택된 수준에서 회귀 변수가 종속 변수에 미치는 영향이 긍정적인지 부정인지를 알 수 없다는 것입니다 (이 게시물 참조).

따라서이 회귀 변수를 유지하면 종속 변수에 대한 자체 영향에 대한 설명에는이를 뒷받침 할 통계적 증거가 없습니다.

그러나이 추정 실패는 회귀자가 구조적 관계에 속하지 않는다고 말하지 않으며, 특정 데이터 세트를 사용하면 계수의 부호를 확실하게 결정할 수 없었습니다.

따라서 원칙적으로 존재 여부를 뒷받침하는 이론적 주장이 있으면 회귀자를 유지해야합니다.

여기의 다른 답변은 이러한 회귀자가 사양에 유지되는 특정 모델 / 상황을 제공했습니다 (예 : 고정 효과 패널 데이터 모델을 언급 한 답변).


"신뢰 수준"을 중요성에 대한 토론으로 끌어들이는 이유는 무엇입니까? 나는 자주 "99 % 신뢰 수준에서 유의미한"과 같은 빈약 한 글과 논문에서 괴물을 읽습니다. 아이디어들 사이에는 분명히 관계가 있지만,이 단어는 필요하지 않습니다 (초급 수준에서는 설명만큼 혼란 스럽습니다).
Nick Cox

@Nick Cox 포인트가 있습니다. "Type I error"로 변경했습니다.
Alecos Papadopoulos

1

통계적으로 유의하지 않더라도 연구의 초점이되는 특정 관심 변수를 포함 할 수 있습니다. 또한 생물 통계학에서 임상 적 의의는 종종 통계적 의의와 다릅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.