로지스틱 회귀-오류 항 및 분포


31

로지스틱 회귀 (및 가정 된 분포)에 오류 항이 있는지 여부에 대해 다양한 곳에서 다음을 읽었습니다.

  1. 오류 용어가 없습니다
  2. 오차항에는 이항 분포가 있습니다 (응답 변수의 분포에 따라).
  3. 오류 항에는 로지스틱 분포가 있습니다

누군가가 명확히 할 수 있습니까?


6
로지스틱 회귀 분석 (또는 실제로는 GLM)을 사용하면 관측 값 를 "평균 + 오류" 로 생각하는 것은 일반적으로 유용하지 않습니다 . 조건부 분포 측면에서 생각하는 것이 좋습니다. 나는 '오류 용어가 없다'고 말하는 것만으로는 '그 용어로 생각하는 것이 도움이되지 않습니다'라고 말하지 않을 것입니다. 그래서 나는 "1 또는 2 사이의 선택"이라고 말하지 않을 것입니다. 일반적으로 "위의 어느 것도"라고 말하는 것이 낫습니다. 그러나 "1"을 주장 할 수있는 정도에 관계없이. 또는 "2.", "3." 확실히 잘못되었습니다. 어디서 봤어? 와이나는|엑스
Glen_b-복지 모니카

1
@ Glen_b : (2)를 주장 할 수 있습니까? 나는 사람들이 그 말을하는 것을 알고 있지만 질문을 받았을 때 그것을 방어하지는 않았다.
Scortchi-Monica Monica 복원

3
@Glen_b 세 문장 모두 건설적인 해석을합니다. (3) en.wikipedia.org/wiki/Logistic_distribution#Applicationsen.wikipedia.org/wiki/Discrete_choice#Binary_Choice 에서 다룹니다 .
whuber

@ whuber : 나는 잘 생각하지 못한 내 대답 wrt (3)를 수정했습니다. 그러나 여전히 어떤 의미에서 (2)가 옳을 지에 대해 의아해합니다.
Scortchi-Monica Monica 복원

2
@Scortchi 비록 당신이 (2) 틀린 것이 맞지만, 관측 값과 기대 값의 차이가 기대 값으로 변환 된 이항 분포를 가지고 있다고 해석하면 (사소한) 정확할 것입니다. (2)의 괄호는 이것이 의도 된 해석임을 강력히 시사한다. 및 Hosmer & Lemeshow에 설명 된 편차 오류 용어와 같은 다른 유용한 "오류 용어"도 정의 할 수 있습니다 (그리고 여기에서 논의 된 적절한 경고에 따라 해당 사각형은 대략 분포를 가짐 ) . χ2χ2
whuber

답변:


25

선형 회귀에서 관측치는 예측 변수 값에 조건부 평균 매개 변수가있는 가우스 분포를 따르는 것으로 가정합니다. 관측치에서 평균을 빼면 오차가 발생합니다 . 평균값이 0이고 예측 변수 값과 무관 한 가우스 분포입니다. 즉, 모든 예측 변수 값의 오차는 동일한 분포를 따릅니다.

로지스틱 회귀 관측에서 은 예측 변수 값에 조건부로 평균 모수 (확률)가 있는 Bernoulli 분포 를 따르는 것으로 가정 합니다. 따라서, 평균 결정 주어진 예측 값 두 가능한 오류가있다 : 확률로 발생 , 확률로 발생 . 다른 예측이 값에 대한 오차가있을 것이다 확률로 발생 , 확률로 발생y{0,1}π1ππ0π1π1ππ0π1π. 따라서 예측 변수 값과 독립적 인 일반적인 오류 분포가 없으므로 사람들은 "오류 용어가 없다"고 말합니다 (1).

"오류 항에는 이항 분포가 있습니다"(2)는 단지 구불 구불합니다. "가우스 모델에는 가우시안 오류가 있고, 인간 이항 모델에는 이항 오류가 있습니다." 또는 @whuber가 지적한 것처럼 "관측과 기대 값의 차이가 기대 값으로 변환 된 이항 분포를 가짐"을 의미 할 수 있습니다.

"에러 항에는 로지스틱 분포가 있습니다"(3)는 로지스틱 분포에 따른 오류가있는 잠재 변수가 일부 임계 값을 초과하는지 여부를 관찰하는 모형에서 로지스틱 회귀를 유도하여 발생합니다. 따라서 위에서 정의한 것과 같은 오류가 아닙니다. (컨텍스트 밖에서 또는 잠재 변수에 대한 명시 적 언급이없는 IMO라고 말하는 것은 이상한 것 같습니다.)

† 예측 변수 값이 동일한 관측치가 있고 각각에 대해 동일한 확률 를 제공하면 그 합 는 확률 와 no를 갖는 이항 분포를 따릅니다 . 시험 . 오류로 를 고려 하면 동일한 결론으로 ​​이어집니다.kπyπkykπ


1
'오류 용어가 없습니다'라는 부분에 대한 간단한 예를 제공 할 수 있습니까? 나는 그것이 쓰여진 방식을 이해하는 데 어려움을 겪고 있습니다.
quirik

@Scortchi 실제로 모델이 0.5와 같은 임계 값으로 사용되는 경우에 따라 문제가 발생합니다. 그런 다음 오류는 1 또는 0입니다. 그러면 실제 레이블이 1 일 때 매개 변수가 1- Bernoulli 랜덤 변수로 간주 될 수 있습니까 ? π
wabbit

17

이것은 이전에 다루어졌습니다. 구속 된 모델에서 예측 된 값을 가지고 가능성 예측 외출 할 것이다 첨가제 오차항 가질 수 [ 0 , 1 ] . 절편 만 포함 된 이진 로지스틱 모델의 가장 간단한 예를 생각해보십시오. 이것은 (1) 모든 정보가 표본 크기와 사건 수에 포함되어 있거나 (2) Bernoulli 분포가 특별한 경우이기 때문에 종종 (이 간단한 경우) 이항 문제라고 부르는 Bernoulli 1- 표본 문제와 같습니다. n = 1 인 이항 분포의[0,1][0,1]=1. 이 상황에서 미가공 데이터는 일련의 이진 값이며 각각 이벤트의 확률을 나타내는 알 수없는 모수 갖는 Bernoulli 분포를가 집니다. Bernoulli 분포에는 오류 항이 없으며, 알려지지 않은 확률이 있습니다. 로지스틱 모형은 확률 모형입니다.θ


9

나에게 로지스틱, 선형, 포아송 회귀 등의 통일은 항상 일반화 선형 모형 프레임 워크에서 평균과 분산의 관점에서 이루어졌다. 데이터에 대한 확률 분포, 연속 데이터에 대한 정규 분포, 이분법에 대한 베르누이 (Beroulli), 카운트에 대한 푸 아송 (Poisson) 등을 지정하여 시작합니다.

(μ나는)=α+엑스나는β

(μ나는)=μ나는

(μ나는)=로그(μ나는1μ나는)

(μ나는)=로그(μ나는)

오류 용어를 쓰는 관점에서 고려할 수있는 유일한 것은 다음과 같습니다.

와이나는=1(α+엑스나는β)+이자형나는이자형(이자형나는)=0V에이아르 자형(이자형나는)=σ2(μ나는)σ2(μ나는)=μ나는(1μ나는)=1(α+엑스나는β)(11(α+엑스나는β))이자형나는

이자형나는


0
  1. 오류가 없습니다. 우리는 평균을 모델링하고 있습니다! 평균은 단지 숫자입니다.
  2. 이것은 나에게 이해가되지 않습니다.
  3. 응답 변수를 잠재 변수로 생각하십시오. 오차 항이 정규 분포를 따른다고 가정하면 모델이 프로 빗 모델이됩니다. 오차항의 분포가 로지스틱이라고 가정하면 모형은 로지스틱 회귀입니다.

2
이것이 확률 모델을 이해하는 데 어떻게 도움이되는지 알지 못합니다. 확률 모델은 이보다 더 단순합니다.
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.