로지스틱 회귀 분석의 과대 산포


14

로지스틱 회귀 분석의 과대 산포 개념을 다루려고합니다. 과분 산은 반응 변수의 분산이 이항 분포에서 예상되는 것보다 클 때 관찰됩니다.

그러나 이항 변수에 두 개의 값 (1/0) 만있을 수있는 경우 어떻게 평균과 분산을 가질 수 있습니까?

나는 x 번의 Bernoulli 시행에서 성공의 평균과 분산을 계산하는 것이 좋습니다. 그러나 두 가지 값만 가질 수있는 변수의 평균과 분산 개념에 대해 머리를 감쌀 수는 없습니다.

누구나 다음에 대한 직관적 인 개요를 제공 할 수 있습니까?

  1. 두 값만 가질 수있는 변수의 평균과 분산 개념
  2. 두 값만 가질 수있는 변수의 과대 산포 개념

1
20 값을 더하십시오 . 여기서 10은 0 이고 10은 1 입니다. 이것을 20으로 나눌 수 있습니까? sd y 를 계산할 수 있습니까 ? 와이01와이
Sycorax는

잘 말하면 평균 = 0.5, 표준 편차 = 0.11이라고 믿습니다.
luciano

내 응답 변수가 100 번 성공하고 5 번 실패했다고 가정 해보십시오. 이것이 과도하게 분산 될 가능성이 있습니까?
luciano

luciano, 실험이 과도하게 분산되어 있는지 확인하려면 하나 이상의 실험을 실현해야합니다.
Underminer

답변:


10

시행과 성공 확률 p를 갖는 이항 랜덤 변수 는 두 개 이상의 값을 가질 수 있습니다. 이항 확률 변수는 이들의 성공 회수 나타내는 N의 실험을, 실제로 캔 받아 N + 1 가지의 값을 ( 0 , 1 , 2 , 3 , . . . , N을 ). 따라서 이항 적 가정에서 분포의 분산이 너무 클 것으로 예상되는 경우 (예를 들어 초과 0이있을 수 있음) 과대 산포의 경우입니다. +10,1,2,,...,

과다 분산은 Bernoulli 랜덤 변수 ( )에 적합하지 않습니다.=1

로지스틱 회귀 곡선의 맥락에서 좁은 범위의 예측 변수 값을 통해 "작은 조각"또는 그룹화를 고려하여 이항 실험을 실현할 수 있습니다 (어쩌면 특정 수의 성공과 실패). 실제로 각 예측 변수 값에 대해 여러 번의 시도가없고 원시 수 대신 비율을보고 있지만이 "슬라이스"각각의 비율이 곡선에 가까울 것으로 예상합니다. 이러한 "슬라이스"가 곡선에서 멀리 떨어져있는 경향이있는 경우 분포에 너무 많은 변동성이 있습니다. 따라서 관측치를 그룹화하면 0/1 데이터를 개별적으로 보지 않고 이항 랜덤 변수를 구현할 수 있습니다.

아래 예는이 사이트의 다른 질문에 대한 것입니다. 파란색 선은 예측 변수 범위에 대한 예상 비율을 나타냅니다. 파란색 셀은 관찰 된 사례 (이 경우 학교)를 나타냅니다. 과대 산포 어떻게 보이는지 그래픽으로 보여줍니다 . 아래 그래프의 셀을 해석하는 데 결함이 있지만 과분 산이 어떻게 나타날 수 있는지에 대한 아이디어를 제공합니다.

과다 분산 예


1
그러나 나는 로지스틱 회귀의 맥락에서 과대 산포에 관심이있다. 로지스틱 회귀 분석에서 예측 변수의 각 값에 대해 n 개의 시도가 없으며 하나의 시도 만 있습니다. 그 시험의 결과는 성공 또는 실패입니다
luciano

선형 회귀의 맥락에서 과대 산포의 직관을 다루기 위해 단락을 추가했습니다.
Underminer

1
Underminer, 저는이 문장이 의미하는 바를 상상하려고합니다. "이"슬라이스 "가 커브에서 멀리 떨어져있는 경향이 있다면 분포에 너무 많은 변동성이 있습니다." 제가 생각하는 바는 다음과 같습니다. 0.1-0.3의 성공 확률이있는 곡선의 조각에는 많은 성공이 있고 0.7-0.9의 성공 확률이있는 곡선의 조각에는 많은 것이 있습니다 의 실패. 이것이 당신이 의미하는 것이며 이것이 과대 산포를 나타내는 것일까 요?
luciano

1
@luciano 맞습니다. 그러나 맞춤이 처음에 발생하기 위해서는 곡선 위의 너무 위와 아래에있는 "슬라이스"의 균형이 있어야합니다. 따라서 0.7 정도의 슬라이스는 너무 많은 성공 (아마도 100 %)을, 0.75 정도의 다음 슬라이스는 너무 적은 (50 %), 0.80은 너무 많은 (100 %) 등을 말하는 것이 더 현실적 일 수 있습니다. 예상보다 많은 분산이 관찰되었습니다.
Underminer

잘 설명했습니다
luciano

7

다른 사람들이 이미 언급했듯이, Bernoulli (0/1) 변수의 경우 과분 산은 적용되지 않습니다.이 경우 평균이 반드시 분산을 결정하기 때문입니다. 로지스틱 회귀와 관련하여 결과가 이진이면 분산 모수를 추정 할 수 없음을 의미합니다. (NB 이것은 결과가 이진이기 때문에 관측치 간의 잠재적 상관 관계를 무시할 수 있음을 의미하지 않습니다!)

반면에 결과가 비율의 집합 인 경우 Pearson 카이 제곱 통계량 (또는 이탈도)을 나누어 분산 매개 변수 (종종 1보다 크지 만 1보다 작을 수 있음)를 추정 할 수 있습니다. 나머지 자유도에 의해).

순 이항 결과를 갖는 로지스틱 회귀는 이항 지수가 1을 초과 할 수있는 (그리고 관측치에 따라 다를 수있는)보다 일반적인 로지스틱 회귀 모델의 특수한 사례 일뿐입니다. 따라서 로지스틱 회귀 모형을 적합시키는 지 여부에 대한 문제는 데이터가 과도하게 분산되어 있는지에 대한 문제와 관련이 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.