회귀 분석에서 표준화 된 잔차를 이해하는 방법은 무엇입니까?


9

예제의 회귀 분석에 따르면 잔차는 반응 값과 예측 값의 차이이며 모든 잔차는 분산이 다르므로 표준화 된 잔차를 고려해야합니다.

그러나 분산은 값 그룹에 대한 것입니다. 단일 값은 어떻게 분산 될 수 있습니까?


2
교과서를 직접 인용하거나 (온라인으로 제공되는 경우) 링크를 제공하는 것이 좋습니다. 한 단어라도 순서가 틀리거나 문맥에서 벗어나면 많은 것을 잃을 수 있습니다. (예를 들어, 잔차는 일반적으로 예측과 응답의 차이로 정의되며 다른 방식은 아닙니다.)
whuber

단일 랜덤 변수에는 분산이 있습니다. 잔차는 랜덤 변수입니다. 데이터의 함수입니다. 따라서 단일 잔차 (표준화 여부에 관계없이)에는 차이가 있습니다.
손님

#whuber 교재는 89 페이지의 "Regression.Analysis.by.Example"입니다. 잔차 종류에 대해 논의했습니다. 정규 잔차는 반응 예측입니다. @guest "단일 랜덤 변수에는 차이가 있습니다", 이것이 내가 이해하지 못하는 것입니다. 변수는 샘플의 속성입니까? 왜 표본의 단일 값 (예 : 잔차)에 차이가 있습니까?
ccshao

책에 저자가 있습니까? 일반적으로 쉽게 찾을 수 있습니다. 표본 분산과 모집단 분산이 혼동되고 있다고 생각합니다. 실험을 수행하기 전에 잔차를 알 수 없습니다. 응답은 랜덤이며 응답의 함수이므로 잔차도 마찬가지입니다. 잔차의 분산에 대해 이야기 할 때 기본 랜덤 변수의 분산에 대해 이야기합니다.
MånsT

불편을 드려서 죄송합니다. 저자는 SAMPRIT CHATTEFUEE 및 ALI S. HADI, 예제 별 회귀 분석, 제 4 판입니다.
ccshao

답변:


9

확률 분포에서 랜덤 드로우로 발생하는 개별 숫자 (예 : 잔차) 는 랜덤 변수 가 아니라 실현 된 값이라고 합니다 . 마찬가지로, 나는 를 사용하여 데이터 및 모형 적합으로부터 계산 된 잔차 이자형=와이와이^은 실현 된 값의 집합입니다. 이 숫자 집합은 기본 분포에서 독립적으로 도출되는 것으로 느슨하게 개념화 될 수 있습니다.ϵ ~ (μ,σ2). (그러나 불행히도 여기에는 몇 가지 추가 복잡성이 있습니다. 예를 들어 실제로 잔차 때문에 독립적 인 정보 이자형다음 두 가지 조건을 충족해야합니다. 이자형나는=0, 엑스나는이자형나는=0.)

이제 몇 가지 숫자가 주어지면 잔차 또는 그 밖의 어떤 것이 든, 그것들이 차이가 있다는 것은 사실입니다. (이자형나는이자형¯)2/그러나 이것은 흥미롭지 않습니다. 우리가 신경 쓰는 것은 데이터 생성 프로세스에 대해 무언가를 말할 수 있다는 것입니다 (예를 들어, 인구 분포의 분산을 추정하기 위해). 앞의 공식을 사용하여나머지 자유도를 사용하지만 근사치가 아닐 수 있습니다. 이 주제는 매우 빠르게 복잡해질 수있는 주제이지만, 몇 가지 가능한 이유는 이분산성 일 수 있습니다 (즉, 인구의 분산이 다른 수준에서 다름).엑스) 및 특이 치의 존재 (즉, 주어진 잔차가 완전히 다른 모집단에서 도출 됨). 거의 확실하게 실제로는 특이 치가 도출 된 모집단의 분산을 추정 할 수 없지만 그럼에도 이론적으로는 분산이 있습니다. 나는이 줄을 따라 뭔가 저자가 생각한 것으로 의심하지만, 나는 그 책을 읽지 않았다는 것을 알아야한다.

업데이트 : 질문을 다시 읽었을 때 따옴표가엑스점의 값은 적합 회귀선에 영향을 미치므로 해당 점과 연관된 잔차의 값에 영향을줍니다. 여기서 파악해야 할 핵심 아이디어는 레버리지 입니다. 나는 내 대답에서 이러한 주제에 대해 토론합니다 : plot.lm () 해석 .


1
감사! 레버리지는 내가 전에 이해하지 못하는 것입니다. x가 avg (x)에 가까운 데이터에 대해 회귀 효과가 없거나 거의 없기 때문에 분산이 높습니다.
ccshao
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.