로지스틱 회귀의 직관


25

최근 기계 학습을 시작했지만 로지스틱 회귀 의 직관을 파악하지 못했습니다 .

다음은 내가 이해하는 로지스틱 회귀에 대한 사실입니다.

  1. 가설의 기초로 우리는 시그 모이 드 함수를 사용 합니다 . 그것이 왜 나는 이해한다 올바른 선택 그것은이다 그러나 왜, 단지 이해가 안 선택. 가설은 적절한 출력이 일 확률을 나타내 므로 함수 영역이 이어야합니다 . 이것이 유용하고 적절한 S 자형 함수의 유일한 속성이지만 많은 함수가이 속성을 만족시킵니다. 또한 sigmoid 함수에는 형식의 미분이 있지만 로지스틱 회귀 분석 에서이 특수 형식의 유틸리티를 볼 수는 없습니다.[ 0 , 1 ] f ( x ) ( 1 f ( x ) )1[0,1]에프(엑스)(1에프(엑스))

    질문 : S 자형 함수의 특별한 점은 무엇이며 도메인 다른 함수를 사용할 수없는 이유는 무엇입니까?[0,1]

  2. 비용 함수는 경우 의 두 매개 변수로 구성됩니다 경우, . 위와 동일하게 왜 그것이 올바른지 이해하지만 왜 유일한 형식입니까? 예를 들어, 왜비용 함수를위한 좋은 선택이 되십시오?y = 1 , C o s t ( h θ ( x ) , y ) = log ( 1 h θ ( x ) ) y = 0 | h θ ( x )기음영형에스(hθ(엑스),와이)=로그(hθ(엑스))와이=1,기음영형에스(hθ(엑스),와이)=로그(1hθ(엑스))와이=0|hθ(엑스)와이|

    질문 : 위의 비용 함수 형태에서 특별한 점은 무엇입니까 ? 왜 다른 양식을 사용할 수 없습니까?

로지스틱 회귀에 대한 이해를 공유 할 수 있다면 감사하겠습니다.


5
로짓 / 로지스틱 함수는 반응이 이항으로 분포 될 때 회귀 모형에 대한 링크 함수 로 사용할 수있는 유일한 기능은 아닙니다 . 이 점과 관련하여 내 대답을 읽는 데 도움이 될 수 있습니다 : log- to -logit-and-probit-models의 차이점 .
gung-Monica Monica 복원

4
내 대답은 : 이진 데이터의 회귀 모델링에 항상 가장 좋은 로짓 함수이며 다른 가능성에 대해 생각하는 데 도움이 될 수 있습니다.
gung-Monica Monica 복원

1
@AdamO는 아래에 훌륭한 개요를 제공합니다. 로짓이 '정식 링크 함수'라는 의미에 대한 자세한 정보를 원한다면 여기에서 Momo의 답변을 읽으십시오 : difference-between-link-function-and-canonical-link-function-for-glm .
gung-Monica Monica 복원

1
"sigmoid"가 사용 되지 않은 (1)의 예시 된 예시 가 stats.stackexchange.com/a/70922에 나타납니다 . 이 답변에는 (2)에 대한 설명이 포함됩니다. 또 다른 예는 stats.stackexchange.com/questions/63978/…에 나타납니다 . stats.stackexchange.com/a/69873 에서보다 평범하지만 기술적 인 논의는 이슈 (2)에 초점을 맞추고 있습니다.
whuber

답변:


7

로지스틱 회귀 모형은 예측 변수의 단위 차이 당 결과 위험의 상대적인 변화를 대조하기 위해 자연 모수 (로그-홀수 비율)를 사용하는 최대 가능성입니다. 이것은 물론 결과에 대한 이항 확률 모델을 가정합니다. 이는 로지스틱 회귀 분석의 일관성 및 견고성 속성이 최대 가능성에서 직접 확장됨을 의미합니다. 즉, 무작위 데이터에서 결손, 루트 n 일관성 및 방정식 추정에 대한 솔루션의 존재 및 고유성입니다. 이는 솔루션이 매개 변수 공간의 경계에 있지 않다고 가정합니다 (로그 확률 비율이 임). 로지스틱 회귀가 최대 가능성이기 때문에 손실 함수는 동등한 최적화 문제이므로 가능성과 관련이 있습니다.±

준우도 또는 추정 방정식 (반모 수 추론)을 통해 존재, 고유성 속성은 여전히 ​​유지되지만 평균 모델이 보유하고 있다는 가정은 적합하지 않으며 추정치 및 표준 오류는 모형의 잘못된 사양과 상관없이 일관됩니다. 따라서이 경우 S 자형이 올바른 함수인지 여부가 아니라 확장 가능한 해석이 가능한 매개 변수로 신뢰할 수있는 추세를 제공합니다.

그러나 S 자형이 유일한 이진 모델링 기능은 아닙니다. 가장 일반적으로 대조되는 프로 빗 기능은 비슷한 특성을 가지고 있습니다. log-odds 비율을 추정하지는 않지만 기능적으로는 매우 유사하게 보이며 정확히 같은 것과 매우 유사한 근사치를 제공하는 경향이 있습니다. 평균 모델 함수에서도 경계 속성을 사용할 필요가 없습니다. 이항 분산 함수와 함께 로그 곡선을 사용하면 상대적 위험 회귀가 발생하고 이항 분산과의 ID 링크는 추가 위험 모델을 제공합니다. 이 모든 것은 사용자에 의해 결정됩니다. 로지스틱 회귀의 인기는 슬프게도 왜 그렇게 많이 사용 되는가입니다. 그러나 나는 그것이 대부분의 이진 결과 모델링 환경에서 사용하기에 정당하다고 생각하는 이유 (내가 언급 한 이유)가 있습니다.

추론 세계에서, 희귀 한 결과에 대해, 승산 비는 대략 "상대적 위험", 즉 "X + 1 대 X를 비교 한 결과의 위험의 상대적 변화 백분율"로 대략 해석 될 수있다. 항상 그런 것은 아니며 일반적으로 승산 비는 그렇게 해석 할 수 없으며 해석해서는 안됩니다. 그러나 매개 변수는 해석이 가능하고 다른 연구자들에게 쉽게 전달할 수 있다는 것은 기계 학습자의 교훈 자료에서 슬프게도 누락 된 중요한 포인트입니다.

로지스틱 회귀 모형은 또한 계층 적 모델링과 같은보다 정교한 접근 방식뿐만 아니라 기하 급수적으로 증가하는 수많은 방해 요인에 일관되고 강력한 혼합 모델링 및 조건부 우도 접근 방식에 대한 개념적 기초를 제공합니다. GLMM과 조건부 로지스틱 회귀는 고차원 통계에서 매우 중요한 개념입니다.


1
대답 해 주셔서 감사합니다! 배경에 큰 부족이있는 것 같습니다.
user16168

McCullough와 Nelder의 저서 Generalized Linear Models는 통계적 관점에서 훌륭한 배경 자료라고 생각합니다.
AdamO

일반적으로, 머신 러닝에서 매우 자세한 내용을 담고있는 교과서에는 어떤 것이 있습니까?
user16168

Hastie, Tibshirani, Friedman의 통계 학습 요소
AdamO

2
@ user48956 Dada, Little & Rubin 2nd ed를 사용한 통계 분석. 누락 된 데이터는 그 자체로 "대표"되지 않지만 생략으로 "처리"됩니다. 이것은 로지스틱 회귀 분석에만 국한된 것이 아닙니다. 모든 통계 모델에서 사용되는 순진한 접근 방식입니다. 데이터가 직사각형 배열로 형식화되면 결 측값이있는 행은 생략됩니다. 이를 완전한 사례 분석이라고합니다. GLM 및 GLMMS는 완전한 사례 분석이 일반적으로 편견이없고 비효율적이지 않다는 점에서 누락 된 데이터에 강력합니다.
AdamO

6

와이엑스와이와이엑스와이나는=엑스나는β+ϵ나는

이 상황을 모델링하기 위해, 우리는 관측, 잠재 변수 소개 , 우리는 말할 Y가 1이 동등 해에 0을 같게에서 이동 Y *이 임계 값을 초과 : Y * 내가와이와이와이 쓰면서 임계 값은 0입니다. 그러나 이것은 환상입니다. 일반적으로 모델은 절편을 포함합니다 (즉,X의 열 중 하나는 1의 열입니다). 이를 통해 임계 값을 지정할 수 있습니다.

와이나는=엑스나는β+ϵ나는와이나는=0만약와이나는<0와이나는=1만약와이나는>0
엑스

이 모델에 동기를 부여하기 위해 신경 독소 살충제로 벌레를 죽이는 것을 생각하십시오. 는 얼마나 많은 신경 세포가 죽었는지, X 는 약간의 벌레에 전달되는 살충제 용량을 포함합니다. 곤충이 죽으면 Y 는 1이고, 살 경우 0입니다. 즉, 충분한 신경 세포가 죽으면 (그리고 Y * 가 임계 값을 넘으면) 벌레가 죽습니다. 이것은 실제로 신경 독성 살충제가 어떻게 작동 하는가는 아니지만, 척하는 것은 재미 있습니다.와이엑스와이와이

따라서 볼 수없는 선형 회귀 방정식과 볼 수있는 이진 결과를 얻을 수 있습니다. 모수 는 일반적으로 최대 가능성을 통해 추정됩니다. 하면 ε이 대칭 분포 함수 분포 F , 다음 P { Y = 1 } = F ( X β ) . 말한 것처럼 원하는 대칭 분포 함수를 사용할 수 있습니다. βϵ에프{와이나는=1}=에프(엑스나는β)

{와이나는=1}=1에프(엑스나는β)

ϵ에프

에프


당신이 묘사 한 것은 로지스틱 회귀가 아닌 프로 빗 모델의 동기입니다.
AdamO

6
ϵ나는

그것은 매우 민감한 가정과 테스트하기 어려운 것 같습니다. 이러한 오류 분포가 유지되지 않으면 로지스틱 회귀가 동기 부여 될 수 있다고 생각합니다.
AdamO

2
@AdamO, 그러나 로지스틱 회귀에 동기를 부여하지만 오차가 로지스틱 분포를 갖는 임계 선형 회귀 모델과 수학적으로 동일합니다. 이 가정은 테스트하기 어려울 수 있지만 문제의 동기 부여 방법에 관계없이 존재한다는 데 동의합니다. 실제 데이터 생성 모델에 관계없이 물류 또는 프로 빗 모델이 "더 잘 맞는지"가 기본적으로 코인 플립인지 여부를 알려주는 시뮬레이션 연구에서 보여준 CV에 대한 이전 답변을 기억합니다 (지금 당장 배치 할 수 없음). . 나는 편리한 해석 때문에 물류가 더 인기가 있다고 생각합니다.
매크로

2
(와이나는=1)=이자형엑스(엑스나는β)1+이자형엑스(엑스나는β)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.