가장 중요한 것은 모델의 논리입니다. 변수 "연도 별 특허 수"는 개수 변수이므로 포아송 회귀가 표시됩니다. 이는 일반적으로 로그 링크 기능이있는 GLM (일반 선형 모델)이며, 일반적인 선형 회귀 분석은 ID 링크가있는 가우스 GLM입니다. 여기에서 오류 분포 (Poisson 또는 Gaussian)보다 가장 중요하고 가장 중요한 로그 링크 기능이 있습니다.
변수 "특허"는 광범위한 변수입니다. 집중적이고 광범위한 속성을 참조하십시오 . 들면 집중 온도와 같은 변수 (신원 링크) 선형 모델은 종종 적합하다. 그러나 광범위한 변수는 다릅니다. 제약 회사 중 하나가 두 개의 다른 회사로 나뉘어져 있다고 생각하십시오. 그런 다음 특허를 두 개의 새로운 회사로 분할해야했습니다. 공변량, 회귀 분석에서 는 어떻게됩니까 ? 직원 수 및 RD 예산과 같은 변수도 분리해야합니다.엑스
이러한 맥락에서 집중 변수는 회사 규모와 무관 한 변수이며, 광범위한 변수 는 회사 규모에 따라 (일반적으로 선형으로) 결정됩니다. 어떤 의미 에서 회귀 방정식에 여러 가지 광범위한 변수가있는 경우 크기 효과를 반복적으로 측정합니다 . 중복되는 것처럼 보이기 때문에 가능한 경우 직원당 RD 예산 (또는 총 예산의 백분율), 수입과 같은 집중적 인 형태로 변수를 표현 해야합니다. 직원 수와 같은 변수는 다음과 같이 남겨 두어야합니다. 광범위한. 이 광범위하고 집중적 인 변수 문제에 대한 또 다른 논의는 상관 회귀 자를 다루는 @onestop의 답변을 참조하십시오 .
는 특허, 예산 (직원당), 원래 회사의 직원 인 반면
P 1 , B 1 , E 1 및 P 2 , B 2 , E 2 는 대수적으로 살펴 보겠습니다
. 스플릿. 위와 같이 E 가 유일한 광범위한 공변량 이라고 가정합니다 ( 물론 P 도 광범위 함).피, B , E피1, B1, E1피2, B2, E2이자형피
그런 다음 분할하기 전에 랜덤 부분이 생략 된 모델 ID 링크가 있습니다.
분할 후 분수 1을 α , 1 - α로 설정 하면 분할 후 회사 1의 경우
α P
피= μ + β1이자형+ β2비
α , 1 - αP1=αP이므로,E1=αE이지만
B1=B
이므로
= α μ + β 1 E 1 + α β 2 B 1 입니다. 회사 2도 마찬가지입니다. 따라서 모델은 회사 규모에 따라 매우 복잡한 방식으로 결정되며
E의 회귀 계수 만
α P피1= α μ + α β1이자형+ α β2비= α μ + β1이자형1+ α β2비1
피1= α P, E1= α E비1= B이자형회사 규모, 규모에 관계없이 모든 다른 매개 변수에 영향을 미칩니다. 결과에 대한 해석이 어려워집니다. 특히 데이터에 다양한 규모의 회사가있는 경우 이러한 계수를 어떻게 해석 할 것입니까? 다른 데이터 등을 기반으로 한 다른 연구와의 비교는 매우 복잡합니다.
이제 로그 링크 기능을 사용하면 도움이 될 수 있는지 살펴 보겠습니다. 다시, 우리는 방해 조건없이 이상적인 모델을 작성합니다. 변수는 위와 같습니다.
먼저 분할 전의 모델 :
분할 후 회사 1의 경우
P 1
피= 특급( μ + β1이자형+ β2B )
P1P1=exp(logα)exp(μ+β1E+β2B)=exp(logα+μ+β1E+β2B1)
E
P=exp(μ+β1logE+β2B)
P1P1P1P1=exp(logα)exp(μ+β1logE+β2B)=exp(logα+μ+β1logE+β2B1)=exp((1−β)logα+μ+β1logE1+β2B1)=exp(μ′+β1logE1+β2B1)
μ′
따라서 결과 해석이 훨씬 쉬워지고 다른 데이터를 사용한 연구, 시간별 추세 등을 비교할 수 있습니다. 아이디 링크를 사용하여 크기에 독립적으로 해석되는 매개 변수로는이 양식을 작성할 수 없습니다.
결론 : 로그 링크 기능, 포아송 회귀 분석 또는 음 이항이있는 GLM을 사용하십시오. 또는 링크 기능이 더 중요합니다!
요약하면 , 카운트 변수와 같이 광범위한 반응 변수에 대한 회귀 모델을 구성 할 때
공변량을 집중적 인 형태로 표현하십시오.
광범위한 변수로 남겨 두어야하는 공변량 : 기록하십시오 (위의 대수는 최대 하나의 광범위한 공변량에 달려 있음).
로그 링크 기능을 사용하십시오.
그런 다음, 적합 기준과 같은 다른 기준은 교란 항의 분포와 같은 2 차 결정에 사용될 수 있습니다.