왜 우리가 필요하지 않을 때 선형 회귀 분석에서 정규 분포 분포 오차 항 (및 등분 산성)에 관심이 많은가?


52

누군가가 비정규 잔차 및 / 또는이 분산이 OLS 가정을 위반한다고 말할 때마다 좌절감을 느낍니다. OLS 모델에서 모수 를 추정 하기 위해 Gauss-Markov 정리에는 이러한 가정이 필요하지 않습니다. OLS 모델에 대한 가설 검정 에서 이것이 중요한 이유를 알 수 있습니다. 이러한 점을 가정하면 t- 검정, F- 검정 및보다 일반적인 Wald 통계에 대한 깔끔한 공식이 제공되기 때문입니다.

그러나 그것들없이 가설 테스트를하는 것은 그리 어렵지 않습니다. 동종 동태 만 삭제하면 강력한 표준 오류와 군집 된 표준 오류를 쉽게 계산할 수 있습니다. 정규성을 완전히 떨어 뜨리면 부트 스트래핑을 사용할 수 있으며 오류 조건, 우도 비율 및 라그랑주 승수 테스트에 대한 다른 매개 변수 사양이 주어집니다.

우리가 이런 식으로 가르치는 것은 부끄러운 일입니다. 많은 사람들이 처음에 만나지 않아도되는 가정에 어려움을 겪고 있기 때문입니다.

보다 강력한 기술을 쉽게 적용 할 수있을 때 이러한 가정을 강조하는 이유는 무엇입니까? 중요한 것이 빠졌습니까?


2
징계하는 것 같습니다. 내 경험에 따르면, Econometrics 텍스트는 거의 항상 각 가정이 구매하는 추론을 다루고 있으며 심리학 텍스트는 주제에 대해 언급하지 않는 것 같습니다.
junctionprior

12
OLS가 BLUE가 되려면 균질성이 필요합니다.
Momo

4
나는 당신이 옳다고 생각합니다. 그 가정들은 지나치게 관심을받습니다. 정상 성 또는 조건부 동 정성 장애. 대부분의 실무자들의 내생 적 목표에 내 생성과 잘못 지정된 기능적 형태에 해로운 것은 아닙니다.
CloseToC

2
@CloseToC 이것은 매우 좋은 지적입니다. 종종 우리는 회귀 모델의 통계적 기술에 대해 너무 큰 그림을 잊어 버렸습니다 ... 내 모델이 올바르게 지정되고 외 인적입니까? 이것은 모델을 만들 때 자기 자신에게 물어볼 주요 질문 중 하나로 반복해서 강조해야합니다.
Zachary Blumenfeld 2014

답변:


25

계량 경제학에서는 비정규 성이 고전 정규 선형 회귀 모델의 조건을 위반하는 반면 이분산성은 CNLR과 고전 선형 회귀 모델의 가정을 모두 위반한다고 말합니다.

그러나 "... OLS 위반"이라고 말하는 사람들도 정당화됩니다. Ordinary Least-Squares라는 이름 은 Gauss에서 직접 유래되었으며 본질적으로 정상적인 오류를 나타냅니다 . 다시 말해, "OLS"는 최소 제곱 추정 (약간의 일반적인 원리 및 접근 방식)의 약어가 아니라 CNLR의 약어입니다.

좋아, 이것은 역사, 용어 및 의미론이었다. OP의 질문의 핵심을 다음과 같이 이해합니다. "이상하지 않은 경우에 대한 해결책을 찾았다면 왜 이상을 강조해야합니까?" CNLR 가정 이상적인 최소 제곱 추정 특성을 "기성품"으로 제공하고 점근 적 결과에 의존 할 필요가 없다는 점에서 이상적입니다. 또한 오류가 정상일 때 OLS가 최대 일 가능성을 기억하십시오. ).

이상적으로는 교육 을 시작하기에 좋은 곳 입니다. "간단한"상황은 "이상적인"상황이며 실제 생활과 실제 연구에서 실제로 발생하는 복잡성이 없고 명확한 해결책이 존재하지 않는 상황 입니다.

그리고 이것은 내가 OP의 게시물에 대해 문제가되는 것을 발견합니다 : 그는 강력한 표준 오류와 부트 스트랩에 대해 "우수한 대안"인 것처럼 쓰거나 OP 쓰기가 더 나아가는 논의중인 가정의 부족에 대한 완벽한 솔루션에 대해 씁니다.

".. 사람들이 만나지 않아도되는 가정"

왜? 상황을 다루는 몇 가지 방법 이 있기 때문에 물론 몇 가지 타당성이 있지만 이상적이지 않은 방법은 무엇입니까? 부트 스트랩과이 분산 강건성 표준 오류는 해결책 이 아닙니다 . 만약 그들이 실제로 있었다면, 그것들은 지배적 인 패러다임이되어 CLR과 CNLR을 역사 책에 보냈습니다. 그러나 그들은 아닙니다.

따라서 우리 는 우리가 중요하다고 생각한 추정자 속성 을 보장 하는 일련의 가정에서 시작 합니다 (바람직한 것으로 지정된 속성이 실제로 필요한 속성인지 여부에 대한 또 다른 토론입니다). 이러한 가정의 부재를 처리하기 위해 찾은 방법을 통해 완전히 상쇄 될 수없는 결과. 과학적으로 말해서, "우리는 문제의 진실에 대한 길을 갈 수있다"는 느낌을 전달하는 것은 정말로 위험 할 것입니다.

따라서 문제를 해결할 수 있는 대안이 될 수있는 완벽한 해결책이 아니라 문제에 대한 불완전한 해결책으로 남아 있습니다 . 그러므로 우리는 먼저 문제가없는 상황을 가르치고 가능한 문제를 지적한 다음 가능한 해결책을 논의해야합니다. 그렇지 않으면 이러한 솔루션을 실제 상태가 아닌 상태로 승격시킬 수 있습니다.


흠, 그것이 당신이 의미 한 바라면, "완전히 입증 된"것을 시도 할 수 있습니다.
gung-Monica Monica 복원

@gung 아니, 아니, 방법은 수학적 의미에서 "완전히 입증"되었지만, 실제로 제공하는 것 (무증상에 대한이 "작은"세부 사항과 그 가치가 무엇인지)에 대해 완벽하지는 않다. 당신의 정정이 옳았습니다.
Alecos Papadopoulos

22

부트 스트래핑과 언급 한 다른 기술 (모든 가정, 함정 등)을 논의하기 위해 회귀 모델을 처음 소개하는 수업 시간에 정규성에 대해 말할 필요가 없다는 데 동의합니다. 그리고 동성애 가정. 그러나 사실, 회귀가 처음 소개 될 때 우리는 다른 모든 것들에 대해 이야기 할 시간이 없으므로, 학생들에게 보수적이고 필요하지 않은 것들을 확인하고 통계 학자와 상담하거나 다른 통계를 보도록합니다. 가정이 유지되지 않는 경우 클래스 또는 2 또는 3, ...).

학생들에게 이러한 가정이 언제 ...를 제외하고는 중요하지 않다고 말한다면 대부분은 중요하지 않은 부분 만 기억하고 중요 할 때는 중요하지 않습니다.

분산이 같지 않은 경우에는 여전히 최소 제곱 선을 맞출 수 있지만 여전히 "최고"선입니까? 또는 그 경우 라인을 맞추는 방법에 대해 더 많은 경험 / 훈련을 가진 사람과 상담하는 것이 좋습니다. 최소 제곱 선에 만족하더라도 예측이 예측 변수의 값에 따라 다른 속성을 가질 것이라는 점을 인정해서는 안됩니까? 따라서 불일치 분산을 확인하는 것은 테스트 / 간격 등을 위해 필요하지 않더라도 나중에 해석하기에 좋습니다. 우리가 사용하고 있습니다.


특히 시간 제약이 크다는 귀하의 의견을 이해하고 감사합니다. 제가 학교에서 보는 것은 학생들이 이러한 가정으로 어려움을 겪을 때 종종 필요한 컨설팅을받지 못하거나받을 수 없다는 것입니다. 따라서 모델 가정에 적합하거나 가정을 위반하기 위해 클래식 모델을 부적절하게 사용하여 프로젝트를 선택하게됩니다. 더 강력한 기술을 가르치면 학생들은 선택의 제한이 줄어들어 실제로 열정적 인 프로젝트를 수행 할 수 있다고 주장합니다.
Zachary Blumenfeld

13
가르 칠 때 항상 이상적인 사례로 시작한 다음 모든 종류의 합병증을 겪으십시오. 박사 수준의 economentrics에서 그들은 모든 종류의 이상한 것들을 가르치지 만 거기에 도달하는 데 시간이 걸립니다. 나는 대부분의 사람들이 MSc 수준 어딘가에서 기차에서 내리는 것이 교육 문제라고 생각하지 않습니다. 실제로, 나는 더 큰 문제는 반쯤 구운 "데이터 과학자들"에 의한 해충 감염이라고 주장 할 것이며, R과 R을 적용한 통계 기초에 대한 지식이 거의없고, 그들이하는 일에 대한 실마리는 전혀 없다. 출력을 이해하십시오.
Aksakal

@ Aksakal이과 체수, 자격이 부족한 분석가들이 어디에서 정확하게 보이는가? 더 자주 만나는 것은 거의 반대이기 때문입니다. 사람들은 먼저인지 된 전문가의 승인을받지 않으면 배운 기술을 시험해 보는 것을 두려워합니다. 이 사이트에서 더 노련하고 건설적인 질문이 " if .... "
rolando2

18

1) 사람들이 추정하기를 원하는 경우는 거의 없습니다. 일반적으로 추론 (CI, PI, 테스트)은 목표이거나 적어도 부분적으로 (때로는 비교적 비공식적으로 수행되는 경우에도)

2) 가우스 마르코프 정리와 같은 것들이 반드시 도움이되는 것은 아닙니다. 분포가 정상에서 충분히 멀다면 선형 추정기는 많이 사용되지 않습니다. 선형 추정기가 없으면 BLUE를 얻는 데 아무런 의미가 없습니다.

3) 샌드위치 추정기와 같은 것들에는 많은 암시 적 매개 변수가 포함됩니다. 데이터가 많더라도 사람들이 그렇지 않은 경우에도 여전히 괜찮을 수 있습니다.

4) 예측 구간은 관측에서 분산을 잘 처리하는 것을 포함하여 조건부 분포의 모양에 의존합니다. PI로 세부 사항을 쉽게 파헤칠 수는 없습니다.

5) 부트 스트랩과 같은 것은 종종 매우 큰 샘플에 편리합니다. 때로는 작은 샘플이나 보통 크기의 샘플에서도 어려움을 겪습니다. 실제 적용 범위 속성은 광고 된 것과 다를 바가 없습니다.

즉, 사람들이 원하는 만병 통치약은 거의 없습니다. 이러한 모든 것들은 제자리를 가지고 있으며, 정규성이 요구 되지 않고, 정규성, 일정한 분산 등을 필요로하지 않고 추정 및 추론 (테스트 및 CI)이 합리적으로 수행 될 수있는 경우가 많이 있습니다.

종종 잊혀진 것 중 하나는 대신에 다른 파라 메트릭 가정을 만들어내는 것입니다. 종종 사람들은 상당히 적절한 모수 적 가정을 할 수있는 상황에 대해 충분히 알고 있습니다 (예 : 조건부 응답이 sd와 거의 비례하여 기울어 지거나 감마 또는 로그 정규 모델이라고 생각할 수 있음) 종종 이것은 이분산성과 비정규 성을 한 번에 처리 할 수 ​​있습니다.

매우 유용한 도구는 시뮬레이션입니다. 데이터가 발생했을 가능성이있는 상황과 같은 상황에서 도구의 속성을 검사 할 수 있으며, 그러한 경우에 좋은 속성을 가지고 있다는 편안한 지식으로 도구를 사용할 수 있습니다. 또는 때때로 그들이 원하는대로 작동하지 않는지 확인하십시오).


"사람은 거의 추정하지 않기를 원합니다"– 기업 금융 및 경제 분야에서 사람들은 특정 변수의 영향을 근절하기 위해 많은 것을 추정합니다. 저자들이 신뢰 구간을 보지도 않고, 일반적인 가정 하에서 중요성을 발견 한 수많은 논문을 읽었습니다.
Aksakal

6
@ Aksakal은 그렇습니다. 그러나 표준 오류, t- 값 또는 p- 값 등에주의를 기울이는 경우 내 계산으로 추정하기를 원하지 않습니다. 그들이 비공식적으로 의미있는 다른 것들을 볼 때, 공식적으로 간격을 테스트 / 구성하는지 여부에 관계없이, 그들은 의미가 있어야합니다.
Glen_b
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.