로지스틱 회귀에 대한 iid 가정이 있습니까?


18

로지스틱 회귀의 반응 변수에 iid 가정이 있습니까?

예를 들어 데이터 포인트 가 있다고 가정 합니다. 응답 가 의 Bernoulli 분포에서 온 것 같습니다 . 따라서 매개 변수 가 다른 Bernoulli 분포 가 있어야합니다 .Y i p i = 로짓 ( β 0 + β 1 x i ) 1000 p1000와이나는나는=로짓(β0+β1엑스나는)1000

따라서 그것들은 "독립적"이지만 "동일한"것은 아닙니다.

내가 맞아?


추신. 나는 "기계 학습"문헌에서 로지스틱 회귀를 배웠다. 여기서 우리는 목적 함수를 최적화하고 가정에 대해 너무 많이 말하지 않고 데이터 테스트에 좋은지 점검한다.

내 질문은이 게시물로 시작했습니다 . 통계 선형 모델의 링크 함수 이해 통계 가정에 대해 더 배우려고합니다.


1
"가정"은 정리가 가질 수있는 것입니다. 선형 회귀는 가우스-마코프 정리에이 가정이 있다는 의미에서 iid 오류의 "가정"(선형 회귀에서 iid라고 가정 한 가 아닙니다 와이! 오류)입니다. 이제 로지스틱 회귀에 대한 마음가짐이 있다는 이론이 있습니까? 그렇지 않은 경우 "가정"이 없습니다.
amoeba는 Reinstate Monica가

7
@Amoeba, hxd는 분포가 동일 하지 않다는 점에서 정확 합니다. "iid"는 적용되지 않습니다. 로지스틱 회귀 분석을 적합하게 만 사용하는 경우 (작성한대로) 몇 가지 가정이 필요합니다. 그러나 계수의 추정 된 공분산 행렬을 사용하거나 예측 구간 (또는 그 문제에 대해 예측 된 값을 교차 검증)을 구성 하려는 경우 확률 적 가정 필요합니다. 일반적으로 응답은 독립적입니다.
whuber

4
@amoeba 일단 매개 변수의 추정치를 계산하는 대신 추론 (가설 테스트, 신뢰 구간 등)을 수행하려는 경우 관련 null 분포를 도출하기 위해 여러 가정 (다른 것들보다 더 중요)을 만들 것입니다. 원하는 범위의 구간에 대한 통계 또는 필요한 계산을 테스트합니다. 비교적 낮은 가정 절차조차도 여전히 가정이 있으며, 추론에 관심이 있다면, 그것들이 명목상의 특성에 가까운 것이 있는지에 대해 관심을 가질 것입니다.
Glen_b-복지 모니카

1
@amoeba, 나는 MLE의 점근 적 정상 성을 보여주는 정리를 좋아한다. 나는 또한 우도 비 테스트를 좋아합니다.
gammer

2
한계 분포는 모두 동일한 예측 값을 갖지 않는 한 동일하지 않습니다.이 경우 IID 베르누이 시험 만 수행 할 수 있습니다. 조건부 분포 (예측 자에게 제공됨)는 모두 동일하지만 일반적 으로이 경우 가 IID 라고는 생각하지 않습니다 . 와이나는
gammer

답변:


11

이전 질문 에서 GLM이 확률 분포, 선형 예측 변수 및 링크 함수 g 와 관련하여 설명되어 있으며η

η=엑스β이자형(와이|엑스)=μ=1(η)

여기서 는 로짓 연결 함수이고 Y 는 Bernoulli 분포를 따르는 것으로 가정합니다.와이

와이나는(μ나는)

는 Bernoulli 분포를 따르며 X에 조건부 인 자체 평균 μ i 입니다 . 우리는 각각의 Y i 가 동일한 평균으로 동일한 분포에서 나온다고 가정 하지는 않지만 (이것은 절편 전용 모델 Y i = g - 1 ( μ ) 일 것입니다. ) 모두 서로 다른 평균을가집니다. 우리는 Y i독립적 이라고 가정합니다 . 즉, 우리는 후속 Y i 값들 사이의 자기 상관과 같은 것들에 대해 걱정할 필요가 없습니다 .와이나는 μ나는엑스와이나는와이나는=1(μ)와이나는와이나는

IID 가정이 모델은 선형 회귀 (즉, 가우스 GLM), 오류 관련이있다

와이나는=β0+β1엑스나는+ε나는=μ나는+ε나는

여기서 이므로 μ i 주위에 iid 노이즈 가 있습니다 . 에 관심이있는 이유입니다 잔차 진단 받는 사람과주의를 기울 장착 대 잔차 플롯 . 이제 로지스틱 회귀와 같은 GLM의 경우 가우시안 모델과 같은 가산 적 잡음 용어가 없기 때문에 그리 간단하지 않습니다 ( 여기 , 여기여기 참조).ε나는(0,σ2)μ나는). 우리는 여전히 잔차가 0 근처에서 "무작위"가되기를 원하며 모델에서 설명되지 않은 일부 효과가 있음을 시사하기 때문에 그 추세를보고 싶지는 않습니다. 정상 및 / 또는 iid . 통계 학습 스레드 에서 iid 가정의 중요성에 대해서도 참조하십시오 .

각주로서, 우리는 각 가 같은 종류의 분포에서 나온다는 가정을 버릴 수도 있습니다 . 다른 Y i 가 다른 모수를 가진 다른 분포를 가질 수 있다고 가정하는 (GLM이 아닌) 모델이 있습니다. 즉, 데이터가 다른 분포혼합 에서 나온 것 입니다. 이러한 경우, 우리는 또한 다른 값을 가진 다른 분포 (예 : 전형적인 실제 데이터)에서 나오는 종속 값이 대부분의 경우 모델링하기에 너무 복잡하기 때문에 (종종 불가능한) 종속 값은 Y i 값이 독립적 이라고 가정합니다. .와이나는와이나는와이나는


6

언급 한 바와 같이, 선형 회귀 분석에서 iid 오류 의 경우를 종종 고려하지만 , 이것은 가장 일반적인 선형 모형 (로지스틱 회귀 포함)에서 직접적으로 동등한 것은 아닙니다. 로지스틱 회귀 분석에서 우리는 일반적으로 모두 매우 엄격한 관계 (즉, 로그 확률에 대한 선형 영향)를 갖는 결과의 독립성을 가정합니다. 그러나 이것들은 동일하지 않은 임의의 변수를 초래하거나 선형 회귀의 경우와 같이 상수 항에 iid 오류를 더해 분해 할 수 없습니다.

당신이 경우 정말 응답이 IID 관계의 일종을 가지고 있음을 보여주고 싶은, 그 다음 단락 날 따라와. 이 아이디어가 구타를 조금 벗어나는 것임을 아십시오. 교수님의 인내심이 부족한 경우 최종 답변에 대해이 답변에 대한 완전한 크레딧을 얻지 못할 수 있습니다.

임의 변수 생성을위한 inverse-cdf 방법에 익숙 할 것입니다. 그렇지 않을 경우, 여기에 원기가있다 : 경우 누적 분포 함수가 F X를 , 나는 무작위로 생성 할 수 있습니다에서 그립니다 X 립니다 첫 번째는 임의 복용하여 Q ~ 제복 (0,1) 다음 계산 X = F - 1 X ( Q )엑스에프엑스엑스제복 (0,1)엑스=에프엑스1(). 이것은 로지스틱 회귀와 어떤 관련이 있습니까? 응답에 대한 생성 프로세스에는 두 부분이 있다고 생각할 수 있습니다. 공변량을 성공 확률과 관련시키는 고정 부분, 및 고정 부분상의 조건부 랜덤 변수의 값을 결정하는 임의 부분. 고정 부분은 로지스틱 회귀의 링크 함수, 즉 의해 정의됩니다 . 랜덤 부분에 대해 F y ( y | p ) 를 확률 p가 있는 Bernoulli 분포의 cdf로 정의합니다 . 그러면 반응 변수 Y를 생각할 수 있습니다=종료(β영형+β1엑스)에프와이(와이|) 다음의 세 단계에 의해 생성되고 :와이나는

1.) 나는=종료(β영형+β1엑스나는)

2.) 나는제복 (0,1)

3.) 와이나는=에프1(나는|나는)

로지스틱 회귀 분석의 표준 가정은 가 iid라는 것입니다.나는


1
나는와이나는(나는)와이나는나는나는

@Tim : 그렇습니다. 대답의 두 번째 부분은 간결한 대답보다 흥미로운 부수적 인 내용입니다. 그러나 그것을 보는 유용한 방법이 될 수 있습니다. 결국, 그것은 기본적으로 컴퓨터가 이러한 모델의 데이터를 시뮬레이션하는 방법입니다!
Cliff AB
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.