선형 및 로지스틱 회귀 분석을위한 오차 분포


9

연속 데이터를 사용하여 선형 회귀 Y=β1+β2X2+u 오차항이 분포되어 있다고 가정 N (0,σ2)

1) Var (Y | x)가 ~ N (0,σ2)?

2) 로지스틱 회귀 분석에서이 오류 분포는 무엇입니까? 데이터가 사례 당 1 개의 레코드 형식 인 경우 "Y"가 1 또는 0 인 경우 분산 Bernoulli (즉, 분산은 p (1-p)) 오류 데이터이며 데이터가 # 형식 인 경우 시행 횟수 중 성공은 이항 법 (예 : 분산이 np (1-p) 임)으로 가정됩니까? 여기서 p는 Y가 1 일 확률입니다.


2
모형 가정은 오차 항이 독립적이며 N (0, σ 인 분포와 동일하게 분포 됨)입니다.2)이며 COVARIATE와 관련이 없습니다. Var (Y | x)는 무엇입니까? X에서 컨디셔닝 중입니까2= x? 모델이 공변량이 임의의 방식으로 임의적이라고 가정합니까? 그래서 공변량이 설계 행렬에 따라 고정되어 있다고 가정합니까? 나는 그것이 후자라고 생각하므로 Var (Y | X2= x)는 가정에 의해 암시되며 가정 할 필요는 없습니다.
Michael R. Chernick

@MichaelChernick 모델이 왜 X2고쳐 졌어? 확실히 는 고정되어있는 경우가 있지만, 또한 임의의 수있다. 질문에 아무것도 나에게 의미하지 않습니다.
Peter Flom

@ PeterFlom 나는 가정 된 오류 분포를 가진 선형 회귀가 X를 요구하는 OLS를 의미한다는 질문을 읽었습니다.2고정되고 알려진. 누군가 데밍 회귀 (예 : 변수 회귀 오류)가있는 경우 질문에 지정됩니다. Stat이받은 답변을 보면 그가 질문을 그런 식으로 해석했다는 것을 알 수 있습니다.
Michael R. Chernick

@Michael, 저는 고정 X를 가정했습니다.
B_Miner

답변:


10

1) 만약 u정규 분포, 즉 를 이므로 는 임의적이지 않습니다. 변하기 쉬운.N(0,σ2)Var(Y|X2)=Var(β1+β2X2)+Var(u)=0+σ2=σ2β1+β2X2

2) 로지스틱 회귀 분석에서 오류는 여기에 언급 된 이항 분포를 따르는 것으로 가정합니다 . 로 작성하는 것이 좋다 이러한 확률은 여기 또는 Applied Logistic Regression 에서 참조 된 의존하기 때문 입니다.Var(Yj|Xj)=mj.E[Yj|Xj].(1E[Yj|Xj])=mjπ(Xj).(1π(Xj))Xj


Stat 따라서 i 번째 개별 오차 의 분산 은 (1- )이며 동일한 공변량을 가진 데이터에 관측치가 2 개 이상 있다고 가정 한 것과 같습니다. 패턴 (즉 , 모든 j에 대해 = 1)? eipipimj
B_Miner

2
예, 맞습니다. 만약 와 다음 확률과 또는 확률 . 따라서 는 평균이 이고 분산이 분포를 갖습니다 . Yi=pi+eiP(Yi=1)=1P(Yi=0)=piei=1pipiei=pi1piei0pi(1pi)
통계

여기에 하나의 추가 포인트, Stat, 우리는 선형 및 로지스틱 회귀 분석의 경우 모두 Var (Y | X) = Var (e)에 대해 X가 고정되어 있고 임의적이지 않다고 가정해야합니까?
B_Miner

NB는 확률과 또는 확률 있다 되지 하는 이항 분포 . ei=1pipiei=pi1piei
Scortchi-Monica Monica 복원

B_Miner : 은 관측 값 취하는 랜덤 변수 에 대한 조건부 의 분산을 의미합니다 . 따라서 예측 변수가 실험에 의해 고정되는지 또는 표본에서 관찰되는지는 중요 하지 않습니다. @Stat의 말 에 따르면 더 이상 회귀를 목적으로 임의 변수로 간주 되지 않습니다 . Var(Y|X)=Var(Y|X=x)YXx
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.