0에서 1 사이의 결과에 대한 로지스틱 회귀 확장


9

결과가 엄격하게 0, 1이 아니라 0에서 1까지의 모든 실수 범위에 포함 된 회귀 문제가 있습니다.와이=[0,0.12,0.31,...,1]

이 문제는이 스레드 에서 이미 논의 되었지만 내 질문은 약간 다릅니다.

로지스틱 회귀가 일반적으로 사용되는 것과 같은 이유로 선형 회귀를 사용할 수 없습니다. 선형 회귀 분석 A) 매우 큰 IV 값은 예측 결과를 1로, B) 선형 회귀 결과는 0.1 한계에 제한되지 않습니다.

내 교과서 에서이 로지스틱 비용 함수를 살펴보면 방정식이 계산하도록 설계되었습니다 와 값이 0 또는 1이 아닌 경우에만 0보다 큰 비용

비용=와이로그(h(엑스))(1와이)로그(1h(엑스))
와이엑스

모든 가설 오류를 측정하기 위해 비용 함수를 수정하여 로지스틱 회귀를 사용할 수 있습니까?

답변:


9

몇 가지 옵션이 있습니다. 그들 중 두 사람은 다음과 같습니다.

  1. 로지스틱 변환을 통해 를 변환하는 경우 일반 최소 제곱을 통해 변환 된 반응 변수에 선형 회귀를 적용 할 수 있습니다.와이로그(와이1와이)
  2. 또는 로지스틱 변환을 링크 변수로 사용하고 의 분산 사이의 관계를 사용하여 원래 변수를 일반화 선형 모형에 맞출 수 있으며 반복 가중 최소 자승법에 따라 이항 변수와 같은 의미를 갖습니다. 이것은 기본적으로 "로지스틱 회귀 사용"과 동일합니다.와이

어떤 것을 사용할 것인가는 오차 구조에 달려 있으며, 결정하는 유일한 방법은 두 가지를 모두 맞추고 어느 모델이 모델의 가정에 가장 적합한 잔차 구조를 갖는지 확인하는 것입니다. 내 의심은 그들 사이에서 선택할 것이 많지 않다는 것입니다. 확실히, 이러한 옵션 중 하나는 변환되지 않은 직선 선형 회귀를 크게 개선 한 것입니다.와이


2
(+1) 옵션 2 : 일반적으로과 분산을 추정하고 표준 오차를 계산하는 데 사용합니다. Y의 분산과 평균의 관계 가 그것의 비율 과 같지 않고 비례 하는 "이분법" 모델 이항 변수.
Scortchi-Monica Monica 복원

@ Scortchi : glm()R이 지속적으로 반응 할 때 R의 기능 이 무엇 family=quasibinomial입니까? 즉 family=binomial,과 분산을 고려하여 표준 오차를 계산 한 다음 추가 단계에서 계수를 추정 합니까? 그렇다면 "강력한 표준 오류"를 계산하는 것과 동일합니까? 나는 적절한 자료를 가지고 있으며 두 가족과 함께 노력했다 glm. 계수는 같지만 표준 오류가 다릅니다. 감사.
amoeba

1
@amoeba : 그렇습니다. 그러나 "강력한 표준 오차"는 일반적으로 샌드위치 추정기 등을 사용하는 것을 의미합니다.
Scortchi-Monica Monica 복원


0

y가 엄격하게 0이 아니거나 1이라고 말했듯이 비용은 항상 0보다 커야합니다. 따라서 모델에서 수정이 필요하다고 생각하지 않습니다.


0

두 가지 대안 모델을 제안합니다.

결과 (y 변수)가 주문 된 경우 주문 된 Probit 모델을 사용해보십시오.

결과 (y 변수)가 정렬되지 않은 경우 다항 로짓 모형을 사용해보십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.