나는 계량 경제학 및 R에 대한 경험이있는 경제학 학생입니다. 통계적으로 유의하지 않더라도 회귀에 변수를 포함시켜야하는 상황이 있는지 알고 싶습니다.
나는 계량 경제학 및 R에 대한 경험이있는 경제학 학생입니다. 통계적으로 유의하지 않더라도 회귀에 변수를 포함시켜야하는 상황이 있는지 알고 싶습니다.
답변:
예!
계수가 통계적으로 0과 구별 할 수 없다는 것은 계수가 실제로 0이며 계수가 관련 이 없음을 의미하지는 않습니다 . 통계적 유의성에 대한 효과가 임의의 컷오프를 통과하지 못한다고해서 제어를 시도해서는 안된다는 의미는 아닙니다.
일반적으로, 문제와 연구 설계는 회귀 자로 포함 할 항목을 안내해야합니다.
그리고 이것을 철저한 목록으로 보지 마십시오 . 더 많은 것을 만들어내는 것이 어렵지 않습니다 ...
이 문제가 자주 발생하는 상황은 고정 효과 가있는 회귀입니다 .
패널 데이터가 있고 모델에서 를 추정한다고 가정 해 보겠습니다 .
가 고정 효과로 취급 되는 보통 최소 제곱으로이 모델을 추정하는 것은 각 개별 대한 표시 변수 를 사용하여 보통 최소 제곱을 실행하는 것과 같습니다 .
어쨌든 요점은 변수 (즉, 지표 변수의 계수)가 종종 잘못 추정된다는 것입니다. 개별 고정 효과 는 종종 통계적으로 중요하지 않습니다. 그러나 고정 효과를 고려하는 경우 회귀 분석에 모든 지표 변수를 계속 포함시킵니다.
(대부분의 통계 패키지는 내장 방법을 사용할 때 개별 고정 효과에 대한 표준 오류조차 제공하지 않습니다. 실제로 개별 고정 효과의 중요성에 대해서는 신경 쓰지 않습니다. 아마도 집단적 중요성에 대해 신경 쓸 것입니다 .)
차 다항식을 일부 곡선에 맞추는 경우 거의 항상 하위 다항식 항이 포함됩니다.
예를 들어 2 차 다항식을 피팅하는 경우 다음을 실행합니다.
일반적으로 을 강제 실행하고 대신 를 실행하는 것은 매우 기괴합니다.
그러나 뉴턴 역학의 학생들은 예외를 상상할 수 있습니다.
AR (p) 모형을 추정하고 하위 항목도 포함한다고 가정 해 보겠습니다. 예를 들어 AR (2)의 경우 다음을 실행합니다.
그리고 실행하는 것이 기괴합니다 :
@NickCox가 언급했듯이, 와 용어는 비슷하게 어울리는 경향이 있습니다. 이에 대한 자세한 내용은 이 백서를 참조하십시오 .
이론적으로 정당한 이유가있을 때 오른쪽 변수를 포함하려고합니다.
그리고 여기 및 StackExchange 전체의 다른 답변 에서처럼 단계적 변수 선택 은 수많은 통계적 문제를 일으킬 수 있습니다.
또한 다음을 구분하는 것이 중요합니다.
후자의 경우 계수가 중요하지 않다고 주장하는 것은 문제가됩니다. 단순히 측정이 잘못되었을 수 있습니다.
네, 있습니다. 통계적으로 미미한 수준에서도 의미있는 방식으로 반응 변수와 상관 관계가있는 변수는 포함되지 않은 경우 회귀를 혼란스럽게 할 수 있습니다. 이를 규격 미달이라고하며, 그렇지 않은 경우 정확하지 않은 모수 추정값으로 이어집니다.
https://onlinecourses.science.psu.edu/stat501/node/328
위에서 :
회귀 방정식에 하나 이상의 중요한 예측 변수가없는 경우 회귀 모델이 지정되지 않습니다 (결과 2). 불특정 모델은 편향 회귀 계수와 편향 반응의 예측을 생성하기 때문에이 상황은 아마도 최악의 시나리오 일 것입니다. 즉, 모형을 사용할 때 모집단 경사와 모집단 평균을 지속적으로 과소 평가하거나 과대 평가합니다. 이미 나쁜 문제를 더욱 악화시키기 위해, 평균 제곱 오차 MSE는 σ²를 과대 평가하는 경향이있어서, 예상보다 더 넓은 신뢰 구간을 산출합니다.
일반적으로 유의성으로 인해 선형 회귀 변수를 포함하거나 제외하지 않습니다. 선택한 변수가 회귀 기준의 (양호한) 예측 변수라고 가정하기 때문에 변수를 포함시킵니다. 즉, 예측 변수 선택은 이론을 기반으로합니다.
선형 회귀 분석에서 통계적으로 유의하지 않은 것은 다음 두 가지를 의미 할 수 있습니다.
중요하지 않은 예측 변수를 배제하는 유효한 이유는 기준 편차 또는 대부분을 설명하는 예측 변수의 가장 작은 하위 집합을 찾고 있기 때문입니다. 발견 한 경우 이론을 확인하십시오.
계량 경제학에서는 이것이 좌우로 일어난다. 예를 들어, 분기 별 계절성 인형 Q2, Q3 및 Q4를 사용하는 경우 종종 그룹별로 중요하지만 일부는 개별적으로 중요하지 않습니다. 이 경우 일반적으로 모두 보관하십시오.
또 다른 일반적인 경우는 상호 작용입니다. 주요 효과 는 중요하지 않지만 상호 작용 는 중요한 모델을 고려하십시오 . 이 경우 주요 효과를 유지하는 것이 일반적입니다. 떨어 뜨리지 말아야 할 이유는 여러 가지가 있으며 그 중 일부는 포럼에서 논의되었습니다.z x ∗ z
업데이트 : 또 다른 일반적인 예는 예측입니다. 계량 경제학은 보통 경제학과의 추론 관점에서 가르칩니다. 추론 관점에서 p- 값과 중요성에 많은 관심이 있습니다. 왜냐하면 무엇이 무엇을 일으키는 지 이해하려고하기 때문입니다. 예측할 때는 모델이 관심 변수를 얼마나 잘 예측할 수 있는지가 중요하기 때문에이 점에 중점을 두지 않습니다.
이것은 최근에 경제학에 접어 들고있는 기계 학습 응용 프로그램 인 btw와 유사합니다. 예측하기 어려운 모든 중요한 변수가 포함 된 모형을 가질 수 있습니다. ML에서는 종종 소위 "오버 피팅"과 관련이 있습니다. 예측에서 이러한 모델을 거의 사용하지 않습니다.
두 가지 다른 질문을합니다.
수정 : 원래 게시물에 대해서는 사실이지만 수정 후에는 더 이상 사실이 아닐 수 있습니다.
Q1에 관해서는 그것이 너무 넓은 국경에 있다고 생각합니다. 가능한 많은 답변이 있으며 일부는 이미 제공되었습니다. 또 다른 예는 예측을위한 모델을 구축 할 때입니다 (설명은 아래에 인용 된 출처 참조).
Q2와 관련하여 통계적 유의성은 모델 구축의 올바른 기준이 아닙니다. Rob J. Hyndman은 자신의 블로그 게시물 "변수 선택에 대한 통계 테스트" 에서 다음을 작성합니다 .
통계적 유의성은 일반적으로 변수를 더 잘 사용해야하는 많은 사람들이 정확히이 목적으로 변수를 사용해야한다는 사실에도 불구하고 변수가 모델에 포함되어야하는지 여부를 결정하기위한 좋은 근거가 아닙니다. <...> 통계 테스트는 변수를 선택하지 않고 가설을 테스트하도록 설계되었습니다.
또한 순전히 우연히 통계적으로 유의 한 일부 변수 (유의 수준 선택에 의해 제어되는 확률)를 찾을 수도 있습니다. 변수가 통계적으로 유의하다는 관측으로는 변수가 모형에 속한다고 결론을 내릴 수 없습니다.
다른 "예"를 추가하겠습니다. 공변량 선택의 주요 고려 사항은 항상 통계가 아니라 영역 지식이라는 점을 항상 배웠습니다. 예를 들어, 생물 통계학에서 개인의 건강 결과를 모델링 하는 경우 회귀 분석의 내용 에 관계없이 연령, 인종 및 성별을 모델에 포함시키지 않는 좋은 논증이 필요합니다.
또한 모델의 목적에 따라 다릅니다. 목적이 결과와 가장 관련이있는 요소를 더 잘 이해하고 있다면, 비유적인 모델을 만드는 데에는 몇 가지 장점이 있습니다. 예측에 관심이 있고 이해에 신경 쓰지 않는다면 공변량을 제거하는 것이 더 작은 관심사 일 수 있습니다.
- 당신이있는 거 계획 변수 선택에 대한 통계를 사용하는 경우 (마지막, 프랭크 하렐이 주제에 무슨 얘기 체크 아웃 http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ 그의 책 회귀 모델링 전략 . 당신이 사용 단계적 또는 최선의 예측을 선택하는 유사한 통계 기반의 전략을했습니다 시간에 의해 간단히, 다음, "?이 좋은 예측 인자는"모든 테스트는 정말 바이어스이다 -의 과정 들은 ' 좋은 예측 변수를 사용하려면 해당 기준에 따라 선택 했으므로 해당 예측 변수의 p 값이 잘못되었습니다.)
"통계적 무의미"의 결과가 진정으로 말하는 유일한 것은, 유형 1 오류의 선택된 수준에서 회귀 변수가 종속 변수에 미치는 영향이 긍정적인지 부정인지를 알 수 없다는 것입니다 (이 게시물 참조).
따라서이 회귀 변수를 유지하면 종속 변수에 대한 자체 영향에 대한 설명에는이를 뒷받침 할 통계적 증거가 없습니다.
그러나이 추정 실패는 회귀자가 구조적 관계에 속하지 않는다고 말하지 않으며, 특정 데이터 세트를 사용하면 계수의 부호를 확실하게 결정할 수 없었습니다.
따라서 원칙적으로 존재 여부를 뒷받침하는 이론적 주장이 있으면 회귀자를 유지해야합니다.
여기의 다른 답변은 이러한 회귀자가 사양에 유지되는 특정 모델 / 상황을 제공했습니다 (예 : 고정 효과 패널 데이터 모델을 언급 한 답변).