대용량 데이터 세트 (기밀 정보이므로 너무 많이 공유 할 수 없음)로 작업하고 있습니다
변수 이름이나 실제 값없이 실제 데이터의 일반적인 특성을 가진 작은 데이터 세트를 작성할 수 있습니다.
부정적인 이항 회귀가 필요하다는 결론에 도달했습니다. 나는 전에 glm 회귀를 한 적이 없으며 가정이 무엇인지에 대한 명확한 정보를 찾을 수 없습니다. MLR과 동일합니까?
분명히 아닙니다! 응답이 조건부로 정상이 아니라 조건부 음 이항이라고 가정한다는 것을 이미 알고 있습니다. ( 일부 가정은 공유됩니다. 예를 들어 독립.)
GLM에 대해 더 일반적으로 이야기하겠습니다.
GLM에는 다중 회귀가 포함되지만 여러 가지 방법으로 일반화됩니다.
1) 반응의 조건부 분포 (종속 변수)는 포아송, 이항, 감마, 정상 및 기타 여러 분포를 포함하는 지수 패밀리 에서 나옵니다.
2) 평균 반응은 링크 함수를 통해 예측 변수 (독립 변수)와 관련이 있습니다 . 각 분포 패밀리에는 관련 정식 링크 기능이 있습니다. 예를 들어 Poisson의 경우 정식 링크는 로그 입니다. 표준 링크는 거의 항상 기본 링크이지만 대부분의 소프트웨어에서는 일반적으로 각 배포 선택 내에서 여러 가지 선택을 할 수 있습니다. 이항의 경우 정규 링크는 로짓입니다 (선형 예측 변수는 모형 , 성공의 로그 홀수 또는 "1") 및 감마의 경우 표준 링크는 반대이지만 두 경우 모두 다른 링크 함수가 종종 사용됩니다.로그( p1 - p)
따라서 반응이 이고 예측 변수가 X 1 이고 X 2 이고 로그 링크를 사용한 포아송 회귀 분석을 사용하면 Y 의 평균이 X 와 어떻게 관련되어 있는지 설명 할 수 있습니다 .와이엑스1엑스2와이엑스
전자 ( Y나는) = μ나는
( η 는 '선형 예측기'라고하며, 여기서 링크 함수는 log 이며, 기호 g 는 종종 링크 함수를 나타내는 데 사용됩니다)로그μ나는= η나는η로그지
η나는= β0+ β1엑스1 나는+ β2엑스2 나는
3) 응답의 분산은 일정하지 않지만 분산 함수 (평균의 함수, 가능한 경우 스케일링 파라미터)를 통해 작동합니다. 예를 들어, 포아송의 분산은 평균과 같지만 감마 의 경우 평균의 제곱에 비례 합니다. (유사 분포를 사용하면 추정 분포에서 분산 함수를 어느 정도 분리 할 수 있습니다)
-
그렇다면 MLR에서 기억하는 것과 공통되는 가정은 무엇입니까?
티
설정과 같은 'anova-table'을 통한 중첩 모델 간의 비교는 약간 다르지만 비슷합니다 (점근 적 카이-제곱 테스트 포함). AIC와 BIC에 익숙하다면 이것들을 계산할 수 있습니다.
비슷한 종류의 진단 디스플레이가 일반적으로 사용되지만 해석하기가 더 어려울 수 있습니다.
차이를 염두에두면 다중 선형 회귀 직관의 대부분이 이어집니다.
와이엑스
전자 ( Y) = exp( η) = exp( Xβ) = exp( β0+ β1x )
바르 ( Y) = σ2
와이엑스
변수를 같은 방식으로 변환 할 수 있습니까 (이미 종속 변수를 변환하는 것이 자연수 여야하기 때문에 나쁜 호출이라는 것을 이미 발견했습니다)?
일반적으로 응답 (DV)을 변환하고 싶지 않습니다. 때로는 선형 예측 변수의 선형성을 얻기 위해 예측 변수 (IV)를 변환 할 수 있습니다 .
나는 음의 이항 분포가 내 데이터의과 분산에 도움이 될 것이라고 이미 결정했습니다 (편차는 약 2000, 평균은 48입니다).
그렇습니다, 그것은 과대 산포를 다룰 수 있습니다. 그러나 조건부 분산과 무조건 부 분산 을 혼동하지 않도록주의 하십시오 .
또 다른 일반적인 접근 방법-조금 더 어색하고 다소 만족스럽지 않은 경우 유사 포아송 회귀 (과도하게 분산 된 포아송 회귀)입니다.
음수 이항 법을 사용하면 특정 매개 변수 중 하나를 지정하면 지수 군에 속합니다 (일반적으로 GLMS에 대해 적어도 매개 변수가 지정된 방식). 일부 패키지는 매개 변수를 지정하면 적합하며 다른 패키지는 GLM 루틴을 중심으로 해당 매개 변수의 ML 추정 (예 : 프로파일 가능성을 통해)을 래핑하여 프로세스를 자동화합니다. 일부는 더 작은 배포판으로 제한합니다. 어떤 소프트웨어를 사용할지 말하지 않기 때문에 더 많은 것을 말하기가 어렵습니다.
나는 일반적으로 로그 링크가 음의 이항 회귀와 함께 사용되는 경향이 있다고 생각합니다.
기본적인 Poisson GLM과 음의 이항 GLM 데이터 분석을 통해 소개되는 많은 입문 수준의 문서가 있습니다 (Google을 통해 쉽게 찾을 수 있음).하지만 GLM에 대한 책을보고 포아송 회귀를 약간 살펴 보는 것이 좋습니다. 그냥 익숙해 지려고