0에서 1 사이의 결과에 대한 로지스틱 회귀 확장

9

결과가 엄격하게 0, 1이 아니라 0에서 1까지의 모든 실수 범위에 포함 된 회귀 문제가 있습니다. $Y = [ 0, 0.12, 0.31, ..., 1 ]$

이 문제는이 스레드 에서 이미 논의 되었지만 내 질문은 약간 다릅니다.

로지스틱 회귀가 일반적으로 사용되는 것과 같은 이유로 선형 회귀를 사용할 수 없습니다. 선형 회귀 분석 A) 매우 큰 IV 값은 예측 결과를 1로, B) 선형 회귀 결과는 0.1 한계에 제한되지 않습니다.

내 교과서 에서이 로지스틱 비용 함수를 살펴보면 방정식이 계산하도록 설계되었습니다 와 값이 0 또는 1이 아닌 경우에만 0보다 큰 비용

비용 = - 와이 로그 (h (엑스)) - (1 - 와이) 로그 (1 - h (엑스))

$\text{Cost} = -y \log(h(x)) - (1 - y) \log(1-h(x))$

y

$y$

x

$x$

모든 가설 오류를 측정하기 위해 비용 함수를 수정하여 로지스틱 회귀를 사용할 수 있습니까?

regression logistic

— 로버트 큐브릭
소스

9

몇 가지 옵션이 있습니다. 그들 중 두 사람은 다음과 같습니다.

로지스틱 변환을 통해 를 변환하는 경우 일반 최소 제곱을 통해 변환 된 반응 변수에 선형 회귀를 적용 할 수 있습니다. $Y$ $\log(\frac{y}{1-y})$
또는 로지스틱 변환을 링크 변수로 사용하고 의 분산 사이의 관계를 사용하여 원래 변수를 일반화 선형 모형에 맞출 수 있으며 반복 가중 최소 자승법에 따라 이항 변수와 같은 의미를 갖습니다. 이것은 기본적으로 "로지스틱 회귀 사용"과 동일합니다. $Y$

어떤 것을 사용할 것인가는 오차 구조에 달려 있으며, 결정하는 유일한 방법은 두 가지를 모두 맞추고 어느 모델이 모델의 가정에 가장 적합한 잔차 구조를 갖는지 확인하는 것입니다. 내 의심은 그들 사이에서 선택할 것이 많지 않다는 것입니다. 확실히, 이러한 옵션 중 하나는 변환되지 않은 직선 선형 회귀를 크게 개선 한 것입니다. $Y$

— 피터 엘리스
소스

2

(+1) 옵션 2 : 일반적으로과 분산을 추정하고 표준 오차를 계산하는 데 사용합니다. Y의 분산과 평균의 관계 가 그것의 비율 과 같지 않고 비례 하는 "이분법" 모델 이항 변수.

— Scortchi-Monica Monica 복원

@ Scortchi : glm()R이 지속적으로 반응 할 때 R의 기능 이 무엇 family=quasibinomial입니까? 즉 family=binomial,과 분산을 고려하여 표준 오차를 계산 한 다음 추가 단계에서 계수를 추정 합니까? 그렇다면 "강력한 표준 오류"를 계산하는 것과 동일합니까? 나는 적절한 자료를 가지고 있으며 두 가족과 함께 노력했다 glm. 계수는 같지만 표준 오류가 다릅니다. 감사.

— amoeba

1

@amoeba : 그렇습니다. 그러나 "강력한 표준 오차"는 일반적으로 샌드위치 추정기 등을 사용하는 것을 의미합니다.

— Scortchi-Monica Monica 복원

9

Y가 제한 될 때 베타 회귀는 종종 의미가 있습니다. "더 나은 레몬 압착기" 논문 참조

이것은 바닥 및 천장 효과를 허용합니다. 평균뿐만 아니라 분산도 모델링 할 수 있습니다.

— 피터 플 로움
소스

0

y가 엄격하게 0이 아니거나 1이라고 말했듯이 비용은 항상 0보다 커야합니다. 따라서 모델에서 수정이 필요하다고 생각하지 않습니다.

— 측정 항목
소스

0

두 가지 대안 모델을 제안합니다.

결과 (y 변수)가 주문 된 경우 주문 된 Probit 모델을 사용해보십시오.

결과 (y 변수)가 정렬되지 않은 경우 다항 로짓 모형을 사용해보십시오.

— 힘
소스