음 이항 회귀 문제-모형이 좋지 않습니까?


31

카운트 데이터의 회귀 모델에 대한 Sellers and Shmueli 의 매우 흥미로운 기사를 읽고 있습니다. 처음에 그들은 (p. 944) McCullaugh와 Nelder (1989)를 인용하여 부정적인 이항 회귀는 인기가없고 문제적인 정식 연관성이 있다고 말했다. 나는 언급 된 구절을 발견했고 그것을 말한다 (M과 N의 374 쪽)

"응용 프로그램에서 마이너스 이항 분포를 거의 사용하지 않은 것 같습니다. 특히 정식 링크를 사용하면 선형 예측 변수를 분산 함수 매개 변수의 함수로 만들기 때문에 문제가됩니다."

이전 페이지에서는 링크 기능을 다음과 같이 제공합니다.

η=로그(α1+α)=로그(μμ+케이)

및 분산 함수

V=μ+μ2케이.

분포는 다음과 같이 주어진다

아르 자형(와이=와이;α,케이)=(와이+케이1)!와이!(케이1)!α와이(1+α)와이=케이

나는 NB 회귀가 꽤 널리 사용되는 것으로 나타났습니다 (몇 권의 책에서 권장 됨). 이러한 모든 사용 및 권장 사항에 오류가 있습니까?

이 문제가있는 링크의 결과는 무엇입니까?


3
아마도 1989 년에 인용 된 견적에 적어도 부분적으로 영향을 미쳤을 것입니다. 나는 NB의 가장 최근의 사용이 가장 최근의 것이라고 생각합니다. NB 모형은 일반적인 이항 우도 (즉, 로지스틱 회귀) 사례에서과 분산 문제를 처리 할 때 매우 유용합니다.

5
Vαμ2V=μ+αμ2

3
나는 그 의견을 소금 한 알로 가져갈 것입니다. Re MN : 그들은 GLM이 무엇인지에 대해 매우 엄격하게 정의했습니다. 알려지지 않은 형상 매개 변수를 가진 네빈 모델은 McCullagh, Nelder, Pregibon 등의 GLM 정의를 엄격하게 준수하지 않습니다. 따라서 기술적으로는 거의 모든 사용 사례에서 GLM이 아닙니다. 약간 다른 모델 클래스로 해석되고 더 이상 문제가없는 최대 가능성을 통해 추정됩니다. Re S & S는 COM Poisson에 동기를 부여하는 사례가 필요했기 때문에 M & N의 인용문이 유용했습니다.
Momo

4
정식 링크의 나쁜 속성으로 인해 네빈 모델이 전반적으로 바람직하지 않은 이유는 무엇인지 알 수 없습니다. 수학적 이론이 아니라 데이터와 해결하려는 문제에 따라 링크 기능을 선택합니다. 사실 나는 누군가가 표준 링크를 사용하고 있는지 의심합니다. 감마 GLM과 비슷한 이야기입니다. 정식 연결은 그 반대이지만, 해석의 용이성과 많은 상황에 자연스럽게 적용되기 때문에 훨씬 더 많은 사람들이 로그 링크를 사용하는 것이 좋습니다.
Hong Ooi

4
이자형{와이|엑스}=이자형엑스(엑스β)β

답변:


10

몇 가지 관점에서 주장에 대해 이의를 제기합니다.

i) 표준 링크는 '문제가있을'수 있지만, 누군가 해당 링크에 관심이 있다는 것은 분명하지 않습니다. 예를 들어, 포아송의 로그 링크는 종종 편리하고 자연 스럽기 때문에 사람들은 종종 그것에 관심이 있습니다. 그럼에도 불구하고 Poisson의 경우 사람들은 다른 링크 기능을 봅니다.

따라서 우리는 표준 링크에 대한 고려를 제한 할 필요가 없습니다.

'문제적인 연결'은 그 자체가 음의 이항 회귀에 대한 특별한 주장이 아닙니다.

예를 들어, 데이터가 조건부 Poisson 일 수 있지만 Poisson 속도에 이질성이있는 경우와 같이 일부 부정적인 이항 응용에서는 로그 링크가 상당히 합리적인 선택 인 것 같습니다. 로그 링크는 거의 해석 가능합니다. 그것은 포아송 사건에서와 같이.

비교해 보면 감마 GLM을 합리적으로 자주 사용하지만 정식 링크를 사용한 적이 있다는 사실을 기억하지는 않습니다 (로그 북 예제 제외). 로그 링크는 거의 항상 사용합니다. 나는 함께 일하는 경향이있다.

ii) 1989 년에 "적은 건 응용 프로그램에서 만들어진 것 같습니다"는 사실 이었지만 지금은 그런 것 같지는 않습니다. [지금까지 서 있었다고해도 그것은 모델이 형편 없다는 주장이 아니며, 널리 사용되지 않았다는 것만으로 모든 방식으로 발생할 수 있습니다.]

음의 이항 회귀 분석은 더 광범위하게 사용할 수 있으므로 더 널리 사용되고 있으며 현재 응용 프로그램에서 더 널리 사용됩니다. 예를 들어, R에서, 나는 MASS그것을 지원 하는 기능들 (그리고 해당 책, Venables and Ripley 's, Modern Applied Statistics, S , 흥미로운 응용 프로그램에서 음의 이항 회귀 사용)-그리고 일부 기능을 사용했습니다 R에서 사용하기 전에 몇 가지 다른 패키지에서

부정적인 이항 회귀 분석이 나에게 쉽게 이용 가능하다면 더 일찍, 더 일찍 사용했을 것입니다. 나는 많은 사람들에게도 똑같이 적용되기를 기대합니다. 그래서 거의 사용되지 않았다는 주장은 더 많은 기회 중 하나 인 것 같습니다.

부정적인 이항 회귀 (예 : 과도하게 분산 된 포아송 모델을 사용하여)를 피하는 것이 가능하지만 실제로는 자신이하는 일이 중요하지 않은 여러 상황 일이 여러 가지 , 완전히 만족스럽지 않은 여러 가지 이유가 있습니다.

예를 들어, 내가 관심을 갖는 계수의 추정치보다 예측 구간에 더 관심이있는 경우 계수가 변하지 않는다는 사실이 음의 이항을 피하기에 적절한 이유가 아닐 수 있습니다.

물론 분산을 모형화하는 다른 선택 (예를 들어 언급 한 논문의 주제 인 Conway-Maxwell-Poisson)이 여전히 있습니다. 그것들은 확실히 선택이지만, 때때로 부정적인 이항이 내 문제의 모델로서 합리적으로 좋은 '적합'이라는 것이 매우 기쁜 상황이 있습니다.

이러한 모든 사용 및 권장 사항에 오류가 있습니까?

정말 그렇게 생각하지 않아요! 만약 그들이 지금이라면, 그것은 합리적으로 분명해 졌을 것입니다. 실제로 McCullagh와 Nelder가 같은 방식으로 계속 느끼면 기회 부족이나 남은 문제를 명확히 할 포럼이 없었습니다. Nelder는 세상을 떠났지만 (2010), McCullagh는 여전히 주변에 있습니다.

McCullagh와 Nelder의 짧은 구절이 전부라면, 그것은 꽤 약한 주장이라고 말할 것입니다.

이 문제가있는 링크의 결과는 무엇입니까?

나는 문제가 주로 분산 함수 중 하나이며 링크 함수가 관련이없는 것이 아니라 관련되어 있다고 생각합니다 (일반적으로 사용되는 다른 모든 주요 GLM 패밀리의 경우와 마찬가지로), 선형 예측 변수의 규모로 해석합니다 덜 직설적입니다 (그것은 유일한 문제라고 말하는 것이 아닙니다. 실업가에게 주요 문제라고 생각합니다). 별거 아냐


비교해 보면, 최근에는 Tweedie 모델이 훨씬 더 널리 사용되는 것을 볼 수 있으며, 분산 함수와 표준 링크 둘 다에 나타납니다 (대부분의 경우 표준 링크에 대해 많이 걱정하지 않아도됩니다).

이 중 어느 것도 더 널리 사용되는 Conway-Maxwell-Poisson 모델 (판매자와 Shmueli 논문의 주제)에서 어떤 것도 빼앗길 수 없습니다. -포아송 사격 경기.

나는 단순히 그것을 다른 것으로 보지 않는다. (지금은 더 넓게 말하면) 통계적 문제에 대해 순수한 베이지안이나 순진한 입장을 취한다. 나는 내가 처한 특정 상황에서 나를 선택하는 것을 최선의 선택으로 사용할 것이며 각 선택에는 장단점이 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.