오차항의 분포는 반응의 분포에 어떤 영향을 줍니까?


14

따라서 오류 항이 일반적으로 선형 회귀로 분포되어 있다고 가정 할 때 반응 변수 의미는 무엇 입니까?y

답변:


7

어쩌면 나는 꺼져 있지만 우리는 에 대해 궁금해야한다고 생각 합니다. 이는 OP를 읽는 방법입니다. 가장 간단한 선형 회귀 분석의 경우 모형이 y = X β + ϵ 인 경우 모형 의 유일한 확률 성분은 오차항 입니다. 따라서 y 의 샘플링 분포를 결정합니다 . 만약 ε ~ N ( 0 , σ 2 I ) 다음 Y | X , β N ( X β ,f(y|β,X)y=Xβ+ϵyϵN(0,σ2I) . 그러나 @Aniko가 말한 것은 확실히 f ( y ) (마지막으로 X , β 이상)에 해당합니다. 따라서 문제는 약간 모호합니다.y|X,βN(Xβ,σ2I)f(y)X,β


나는 모든 의견을 좋아한다! 그리고 그들은 모두 옳은 것 같습니다. 그러나 나는 가장 쉬운 대답을 찾고있었습니다 :) 오류 용어가 정규 분포라고 가정하면 어떻게됩니까? 이것이 현실에서 매우 자주 발생한다는 사실은 다른 답변에서 분명해집니다! 고마워요!
MarkDollar

17

짧은 대답은 x 의 분포 와 관계의 강도와 모양에 따라 의 분포에 대해 아무것도 결론을 내릴 수 없다는 것 입니다. 더 공식적으로, y 는 "정규의 혼합"분포를 가지게되는데 실제로는 거의 모든 것이 될 수 있습니다.yxy

다음은이를 설명하기위한 두 가지 극단적 인 예입니다.

  1. 두 개의 가능한 값, 0 an 1 및 y = 10 x + N ( 0 , 1 ) 만 있다고 가정하십시오 . 그러면 y 는 0과 10에 범프가있는 강력한 이봉 분포를 갖게됩니다.xy=10x+N(0,1)y
  2. 이제 같은 관계를 가정하지만 많은 값으로 0-1 간격으로 를 균일하게 분포시킵니다. 그런 다음 y 는 0-10 간격에 걸쳐 거의 균일하게 분포됩니다 (가장자리에 약간의 반 정상 꼬리가 있음).xy

실제로, 모든 분포는 법선의 혼합으로 임의로 근사 할 수 있으므로 대한 분포를 얻을 수 있습니다 .y


8
+1 마지막 진술 다시 : 나는 그런 생각을 한 적이 있습니다. 수학적으로는 정확하지만 실제로는 법선 (예 : J 자형 또는 U 자형 분포)으로 구분할 수없는 스파이크를 근사화하는 것은 거의 불가능합니다. 법선은 피크에서 너무 평평하여 스파이크의 밀도를 포착 할 수 없습니다. 너무 많은 구성 요소가 필요합니다. 법선은 pdf가 매우 부드러운 분포를 근사화하는 데 좋습니다.
whuber

1
@whuber 동의합니다. 실제로 분포에 정규 혼합 근사법을 사용하는 것은 권장하지 않으며 극단적 인 반례를 제시하려고했습니다.
Aniko

5

실제 데이터에 가상의 모델을 적용하여 오류 항을 발명합니다. 오차항의 분포는 반응의 분포에 영향을 미치지 않습니다.

우리는 종종 오차가 정규 분포를 따른다고 가정하고 추정 된 잔차가 정규 분포를 갖도록 모형을 구성하려고 시도합니다. 일부 분포에서는 어려울 수 있습니다 . 이 경우 응답 분포가 오류 항에 영향을 준다고 말할 수 있다고 가정합니다.y


2
"우리는 종종 우리의 오류 용어는 정규 분포되도록 모델을 구축하려고"- 정확히 말하면, 난 당신이 잔차를 참조 생각 . 이들은 추정 하는 것과 같은 방식으로 에러 조건의 X의 β는 의 추정치 인 E ( Y ) = X β . 우리는 잔차가 정상으로 보이기를 원합니다. 왜냐하면 우리가 오류 항에 대해 가정 한 것이기 때문입니다. 우리는 적합하지 않은 모델을 지정하여 오류 용어를 "발명"했습니다. yXβ^Xβ^E(y)=Xβ
JMS

귀하의 정확한 JMS에 동의합니다. +1하면 답변을 조정하겠습니다.
Thomas Levine

2

만약 같은 응답 쓰는 경우 여기서 m 은 "모델"(에 대한 예측이다 Y ) 및 E는 은 "에러"이다,이 재 배열을 나타낼 수있다 Y가 - m = 전자 . 따라서 오차에 대한 분포를 할당하는 것은 모형이 불완전한 방법을 나타내는 것과 같습니다. 다시 말하면 관측 된 반응이 실제로 예측 한 값이 아니라 모델이 예측 한 값이 아닌 이유를 어느 정도 알 수 없다는 것입니다. 모형이 완벽하다는 것을 알고 있다면 오차의 질량이 모두 0 인 확률 분포를 할당합니다. 할당 N을 (

y=m+e
myeym=e 기본적으로 오차가 σ 단위로 작다는 것을 나타냅니다. 아이디어는 모델 예측이 서로 다른 관측치에 대해 비슷한 양만큼 "잘못"경향이 있으며, σ 의 척도에서 " 정확한"것 입니다. 대조적으로, 대체 대입은 C a u c h y ( 0 , γ )로 , 대부분의 오차는 작지만 일부 오차는 상당히 큽니다. 응답을 예측합니다.N(0,σ2)σσCauchy(0,γ)

어떤 점에서 오류 분포는 반응보다 모형에 더 밀접하게 연결되어 있습니다. 이것은, 상기 식의 비 식별 가능성으로부터 알 수있는 두 경우를위한 E를 알 다음에 임의의 벡터를 가산 m 으로부터이를 감산 전자 의 동일한 값에 이르게 Y , Y = m + E = ( m + b ) + ( e b ) = m ' + e 'memeyy=m+e=(m+b)+(eb)=m+e. 오차 분포와 모델 방정식의 할당은 기본적으로 어떤 임의의 벡터가 다른 것보다 더 그럴듯하다고 말합니다.


"여러분은 y를 한 번만 관찰하기 때문에 이상하게 보입니다 (y는 반응의 완전한 벡터 / 매트릭스 / 등입니다). 이것은 어떻게"분산 "될 수 있습니까? 내 견해로는 상상의 앙상블에서만 분배 될 수 있습니다 최소한 "분산되고있는"응답에 대한 추정은 테스트 할 수 없다 "고 혼란 스러웠다. H 1 : y f 1을 테스트 할 수 없다고 말하는가 ? H0:yf0H1:yf1
JMS

아뇨, 죄송합니다. 그건 당신이 말하는 것이 아닙니다. 그래도 여전히 혼란 스러워요. 아마 약간 부정확하지만 나는 그것을 읽는 방법은 그가 가지고 의 샘플 Y 전을 에서 Y 고정으로 x를 내가 그의 모델은 Y = X β + ε , 그는의 가정 된 분포 궁금있어 ε가 의 분포에 대한 의미 Y | β , X 그의 모델에서 . 여기서는 정상임을 암시합니다. 샘플로 nyiYxiY=Xβ+ϵϵY|β,X
JMS

@JMS-첫 번째 단락을 삭제할 수 있다고 생각합니다. 나는 그것이 내 혼란에 더하여 내 대답에 아무것도 추가하지 않는다고 생각합니다.
probabilityislogic

내 답변에 추가 할 내가 좋아하는 것 중 하나 :)
JMS
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.