시행과 성공 확률 p를 갖는 이항 랜덤 변수 는 두 개 이상의 값을 가질 수 있습니다. 이항 확률 변수는 이들의 성공 회수 나타내는 N의 실험을, 실제로 캔 받아 N + 1 가지의 값을 ( 0 , 1 , 2 , 3 , . . . , N을 ). 따라서 이항 적 가정에서 분포의 분산이 너무 클 것으로 예상되는 경우 (예를 들어 초과 0이있을 수 있음) 과대 산포의 경우입니다. 엔피엔엔+ 10 , 1 , 2 , 3 , . . . , N
과다 분산은 Bernoulli 랜덤 변수 ( )에 적합하지 않습니다.엔= 1
로지스틱 회귀 곡선의 맥락에서 좁은 범위의 예측 변수 값을 통해 "작은 조각"또는 그룹화를 고려하여 이항 실험을 실현할 수 있습니다 (어쩌면 특정 수의 성공과 실패). 실제로 각 예측 변수 값에 대해 여러 번의 시도가없고 원시 수 대신 비율을보고 있지만이 "슬라이스"각각의 비율이 곡선에 가까울 것으로 예상합니다. 이러한 "슬라이스"가 곡선에서 멀리 떨어져있는 경향이있는 경우 분포에 너무 많은 변동성이 있습니다. 따라서 관측치를 그룹화하면 0/1 데이터를 개별적으로 보지 않고 이항 랜덤 변수를 구현할 수 있습니다.
아래 예는이 사이트의 다른 질문에 대한 것입니다. 파란색 선은 예측 변수 범위에 대한 예상 비율을 나타냅니다. 파란색 셀은 관찰 된 사례 (이 경우 학교)를 나타냅니다. 과대 산포 가 어떻게 보이는지 그래픽으로 보여줍니다 . 아래 그래프의 셀을 해석하는 데 결함이 있지만 과분 산이 어떻게 나타날 수 있는지에 대한 아이디어를 제공합니다.