로짓 함수는 항상 이진 데이터의 회귀 모델링에 가장 적합합니까?


15

나는이 문제에 대해 생각하고있다. 이진 데이터 모델링을위한 일반적인 로지스틱 함수는 다음과 같습니다. 그러나 S 형 곡선 인 로짓 함수는 항상 데이터 모델링에 가장 적합합니까? 데이터가 정상적인 S 자형 곡선을 따르지 않고 도메인(0,1)을가진 다른 유형의 곡선을 따르는 것으로 생각할만한 이유가있을 수 있습니다.

로그(1)=β0+β1엑스1+β2엑스2+
(0,1)

이것에 대한 연구가 있습니까? 어쩌면 프로 빗 함수 또는 비슷한 것으로 모델링 할 수 있지만 완전히 다른 것이면 어떨까요? 이로 인해 효과를 더 잘 추정 할 수 있습니까? 내가 가진 생각, 이것에 대한 연구가 있는지 궁금합니다.



2
@macro 정확한 복제본이라고 생각하지 않습니다. 그 질문은 단지 로짓과 프로 빗에 관한 것입니다. 이것도 다른 대안을 요구합니다.
Peter Flom-Monica Monica 복원

나는 이것을 열어두고 투표하고 있습니다. 내가 본 가장 큰 차이점은이 Q가 다른 가능한 링크 함수 주제에 대한 통계 연구 를 요청한다는 것입니다. 미묘한 차이이지만 충분할 수 있습니다. @Glen, 다른 Q를 아직 보지 않았다면 검토하고 싶을 수도 있습니다. 내 대답에서는 다른 가능한 링크에 대해 이야기합니다. 이 Q가 실제로 다르지 않다고 생각하면 플래그를 지정하면 모드가 닫을 수 있습니다. 당신이 요구하는 것과 그 Q를 더 명확하게 구별 할 수있는 방법을 생각할 수 있다면 그렇게 편집 할 수 있습니다.
gung-복직 모니카

나는 그것이 logit 대 probit 질문의 정확한 복제본이 아니라는 것을 알고 있지만 관련 질문에 의해 요청 된 것 이상으로 진행되는 gung의 대답이 여기에서 요청 된 대부분의 문제를 해결한다고 생각했기 때문에 중복으로 폐쇄되었습니다. 밀접하게 관련된 다른 스레드가있을 수 있지만 이것이 가장 먼저 떠 오릅니다.
매크로

의견 주셔서 감사합니다. 내 질문이 이전 질문과 다르다고 생각합니다. 나는 probit 및 log-log 변환에 매우 익숙하며, 이전 질문에 대한 토론은 매우 유익했습니다. 그러나 확률 곡선이 다른 분포를 따른다는 사실을 모르거나 알 수없는 상황에서 가능한 다른 링크 함수 (비모수 적 가능성)에 관심이 있습니다. 공변량 사이에 상호 작용이 관여하면 중요한 역할을 할 수 있다고 생각합니다. @David J. Harris의 답변도 도움이됩니다 ...
Glen

답변:


15

사람들은 모든 종류의 함수를 사용하여 데이터를 0과 1 사이로 유지합니다. 모델을 도출 할 때 로그 홀수는 수학에서 자연스럽게 떨어집니다 ( "표준 링크 함수"라고 함). 다른 대안들.

매크로가 귀하의 질문에 대한 그의 의견에서 언급했듯이, 하나의 일반적인 선택은 로지스틱 함수 대신 가우시안의 양자 함수를 사용 하는 프로 빗 모델 입니다. 나는 시도하지 않았지만 Student 분포 의 Quantile 함수를 사용하는 것에 대해 좋은 소식을 들었 습니다.

그것들은 모두 같은 기본 S 자형을 갖지만, 각 끝에서 얼마나 빨리 포화되는지에 따라 다릅니다. 프로 비트 모델은 0과 1에 매우 빠르게 접근하므로 확률이 덜 극단적 인 경우 위험 할 수 있습니다. 기반 모델은 t 분포 의 자유도에 따라 어느 쪽이든 갈 수 있습니다 . Andrew Gelman (대부분 관련이없는 상황에서) t 7 은 로지스틱 곡선과 거의 같다고 말합니다 . 자유도를 낮추면 회귀에서 더 두꺼운 꼬리와 더 넓은 범위의 중간 값이 제공됩니다. 자유도가 무한대로되면 프로 빗 모델로 돌아갑니다.7

도움이 되었기를 바랍니다.

추가 편집 : @Macro와 관련된 토론 은 정말 훌륭합니다. 더 자세히 알고 싶으시면 읽어 보시기 바랍니다.


문제는 구체적으로 0과 1 사이의 데이터가 아니라 "이진 데이터"에 관한 것입니다. 프로 빗 모델에는 이진 데이터의 경우 이론적 인 근거가 없습니다.
Neil G

3
@NeilG, 프로 빗 모델을 사용하는 한 가지 이유는 다변량 이진 데이터 (예 : 혼합 모델)를 임계 법선으로 모델링하는 편리한 방법을 제공하기 때문입니다. 이 경우 기본 변수의 상관 행렬은 통계적으로 식별 할 수 없지만 로지스틱의 경우에는 그렇지 않습니다. 여기에 더 긴 토론이 있습니다 .
매크로

@ 매크로 : 아, 알겠습니다. 고마워요.
Neil G

@David J.Harris : 5 분위수 (혹은 Quantile이 같은 의미를 가짐) 즉, 5 분의 1의 청크로 나누어지는 것을 의미합니까?
MSIS

1
@MSIS 다섯째로 분할은, 임의의 단위로 100 분으로 백분위 분할 및 분위 분할은 참조 분위 en.wikipedia.org/wiki/Quantile#Specialized_quantiles
데이비드 J. 해리스

11

주어진 데이터 세트에 대한 적절한 링크 기능이 로짓이어야하는 이유는 없습니다. 나는 이것이 당신이 찾고있는 것인지 잘 모르겠지만 다음은 더 이국적인 링크 기능에 대해 논의하는 논문입니다.

공개 : 나는이 자료를 잘 모른다. 몇 년 전에 Cauchit 및 Scobit와 손을 대려고 시도했지만 코드가 계속 충돌하고 (아마도 훌륭한 프로그래머가 아니기 때문에) 작업중 인 프로젝트와 관련이없는 것처럼 보였습니다. .

엑스


4

최선의 전략은 무슨 일이 일어나고 있는지에 비추어 데이터를 모델링하는 것입니다 (놀랍지 않습니다!)

  • Probit 모델은 LD50 연구에서 시작됩니다-버그의 절반을 죽이는 살충제를 원합니다. 이진 반응은 버그가 존재하는지 또는 죽었는지 (주어진 용량으로)입니다. 한 번의 복용량에 영향을 받기 쉬운 벌레는 더 낮은 복용량에도 영향을받을 수 있습니다.
  • 이진 관측 값이 군집으로 제공되는 경우 베타 이항 모델을 사용할 수 있습니다. 벤 볼커 (Ben Bolker)는 간단한 경우에 이것을 구현하는 그의 bbmle 패키지 (R) 문서에 대한 좋은 소개를 가지고있다. 이 모델을 사용하면 이항 분포에서 얻는 것보다 데이터의 변동을 더 잘 제어 할 수 있습니다.
  • 다변량 표에 롤업되는 다변량 이진 데이터는 로그 선형 모델을 사용하여 분석 할 수 있습니다. 링크 기능은 로그 확률이 ​​아니라 로그입니다. 어떤 사람들은 이것을 포아송 회귀라고합니다.

이러한 모델 중 하나, 모델 간 비교 및 ​​다양한 추정 방법에 대한 많은 연구가 있었음에도 불구하고 이러한 모델에 대한 연구는 아직 없습니다. 연구자들은 연구자들이 특정 종류의 문제에 대한 여러 가지 옵션을 고려한 후 한 가지 방법이 우월 해지면서 한동안 많은 활동이 있다는 것을 발견했습니다.


베타 이항의 경우 +1 그것은 도구 상자에있는 훌륭한 도구입니다.
David J. Harris

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.