로지스틱 회귀 (및 가정 된 분포)에 오류 항이 있는지 여부에 대해 다양한 곳에서 다음을 읽었습니다.
- 오류 용어가 없습니다
- 오차항에는 이항 분포가 있습니다 (응답 변수의 분포에 따라).
- 오류 항에는 로지스틱 분포가 있습니다
누군가가 명확히 할 수 있습니까?
로지스틱 회귀 (및 가정 된 분포)에 오류 항이 있는지 여부에 대해 다양한 곳에서 다음을 읽었습니다.
누군가가 명확히 할 수 있습니까?
답변:
선형 회귀에서 관측치는 예측 변수 값에 조건부 평균 매개 변수가있는 가우스 분포를 따르는 것으로 가정합니다. 관측치에서 평균을 빼면 오차가 발생합니다 . 평균값이 0이고 예측 변수 값과 무관 한 가우스 분포입니다. 즉, 모든 예측 변수 값의 오차는 동일한 분포를 따릅니다.
로지스틱 회귀 관측에서 은 예측 변수 값에 조건부로 평균 모수 (확률)가 있는 Bernoulli 분포 † 를 따르는 것으로 가정 합니다. 따라서, 평균 결정 주어진 예측 값 두 가능한 오류가있다 : 확률로 발생 , 확률로 발생 . 다른 예측이 값에 대한 오차가있을 것이다 확률로 발생 , 확률로 발생. 따라서 예측 변수 값과 독립적 인 일반적인 오류 분포가 없으므로 사람들은 "오류 용어가 없다"고 말합니다 (1).
"오류 항에는 이항 분포가 있습니다"(2)는 단지 구불 구불합니다. "가우스 모델에는 가우시안 오류가 있고, 인간 이항 모델에는 이항 오류가 있습니다." 또는 @whuber가 지적한 것처럼 "관측과 기대 값의 차이가 기대 값으로 변환 된 이항 분포를 가짐"을 의미 할 수 있습니다.
"에러 항에는 로지스틱 분포가 있습니다"(3)는 로지스틱 분포에 따른 오류가있는 잠재 변수가 일부 임계 값을 초과하는지 여부를 관찰하는 모형에서 로지스틱 회귀를 유도하여 발생합니다. 따라서 위에서 정의한 것과 같은 오류가 아닙니다. (컨텍스트 밖에서 또는 잠재 변수에 대한 명시 적 언급이없는 IMO라고 말하는 것은 이상한 것 같습니다.)
† 예측 변수 값이 동일한 관측치가 있고 각각에 대해 동일한 확률 를 제공하면 그 합 는 확률 와 no를 갖는 이항 분포를 따릅니다 . 시험 . 오류로 를 고려 하면 동일한 결론으로 이어집니다.
이것은 이전에 다루어졌습니다. 구속 된 모델에서 예측 된 값을 가지고 가능성 예측 외출 할 것이다 첨가제 오차항 가질 수 [ 0 , 1 ] . 절편 만 포함 된 이진 로지스틱 모델의 가장 간단한 예를 생각해보십시오. 이것은 (1) 모든 정보가 표본 크기와 사건 수에 포함되어 있거나 (2) Bernoulli 분포가 특별한 경우이기 때문에 종종 (이 간단한 경우) 이항 문제라고 부르는 Bernoulli 1- 표본 문제와 같습니다. n = 1 인 이항 분포의. 이 상황에서 미가공 데이터는 일련의 이진 값이며 각각 이벤트의 확률을 나타내는 알 수없는 모수 갖는 Bernoulli 분포를가 집니다. Bernoulli 분포에는 오류 항이 없으며, 알려지지 않은 확률이 있습니다. 로지스틱 모형은 확률 모형입니다.
나에게 로지스틱, 선형, 포아송 회귀 등의 통일은 항상 일반화 선형 모형 프레임 워크에서 평균과 분산의 관점에서 이루어졌다. 데이터에 대한 확률 분포, 연속 데이터에 대한 정규 분포, 이분법에 대한 베르누이 (Beroulli), 카운트에 대한 푸 아송 (Poisson) 등을 지정하여 시작합니다.
오류 용어를 쓰는 관점에서 고려할 수있는 유일한 것은 다음과 같습니다.