적합도 및 선형 회귀 또는 포아송을 선택할 모델


19

제 연구에서 두 가지 주요 딜레마에 관한 조언이 필요합니다. 이는 3 가지 큰 제약과 혁신에 대한 사례 연구입니다. 연간 특허 수는 종속 변수입니다.

내 질문은

  • 좋은 모델을위한 가장 중요한 기준은 무엇입니까? 더 중요한 것은 무엇입니까? 대부분 또는 모든 변수가 중요합니까? "F STATISTIC"의 조사입니까? "Adjusted R squared"의 값입니까?

  • 둘째, 연구에 가장 적합한 모델을 어떻게 결정할 수 있습니까? 계수 변수 (아마도 포아송 계수) 인 특허 외에도 자산 수익률, 연구 개발 예산, 반복 파트너 (이진 변수가 아닌 %), 회사 규모 (직원) 및 기타와 같은 설명 변수가 있습니다. 선형 회귀 또는 포아송을해야합니까?


5
Kjetil은 좋은 세부 답변을 제공했습니다. 그의 주장과 일치하는 더 빠르고 짧은 견해는 당신이 "두 번째"라고 라벨을 붙인 것은 정말로 중요한 질문이라는 것입니다. 먼저 언급 한 것은 부수적입니다.
Nick Cox

답변:


31

가장 중요한 것은 모델의 논리입니다. 변수 "연도 별 특허 수"는 개수 변수이므로 포아송 회귀가 표시됩니다. 이는 일반적으로 로그 링크 기능이있는 GLM (일반 선형 모델)이며, 일반적인 선형 회귀 분석은 ID 링크가있는 가우스 GLM입니다. 여기에서 오류 분포 (Poisson 또는 Gaussian)보다 가장 중요하고 가장 중요한 로그 링크 기능이 있습니다.

변수 "특허"는 광범위한 변수입니다. 집중적이고 광범위한 속성을 참조하십시오 . 들면 집중 온도와 같은 변수 (신원 링크) 선형 모델은 종종 적합하다. 그러나 광범위한 변수는 다릅니다. 제약 회사 중 하나가 두 개의 다른 회사로 나뉘어져 있다고 생각하십시오. 그런 다음 특허를 두 개의 새로운 회사로 분할해야했습니다. 공변량, 회귀 분석에서 는 어떻게됩니까 ? 직원 수 및 RD 예산과 같은 변수도 분리해야합니다.x

이러한 맥락에서 집중 변수는 회사 규모와 무관 한 변수이며, 광범위한 변수 는 회사 규모에 따라 (일반적으로 선형으로) 결정됩니다. 어떤 의미 에서 회귀 방정식에 여러 가지 광범위한 변수가있는 경우 크기 효과를 반복적으로 측정합니다 . 중복되는 것처럼 보이기 때문에 가능한 경우 직원당 RD 예산 (또는 총 예산의 백분율), 수입과 같은 집중적 인 형태로 변수를 표현 해야합니다. 직원 수와 같은 변수는 다음과 같이 남겨 두어야합니다. 광범위한. 이 광범위하고 집중적 인 변수 문제에 대한 또 다른 논의는 상관 회귀 자를 다루는 @onestop의 답변을 참조하십시오 .

는 특허, 예산 (직원당), 원래 회사의 직원 인 반면 P 1 , B 1 , E 1P 2 , B 2 , E 2 는 대수적으로 살펴 보겠습니다 . 스플릿. 위와 같이 E 가 유일한 광범위한 공변량 이라고 가정합니다 ( 물론 P 도 광범위 함).P,B,EP1,B1,E1P2,B2,E2EP

그런 다음 분할하기 전에 랜덤 부분이 생략 된 모델 ID 링크가 있습니다. 분할 후 분수 1을 α , 1 - α로 설정 하면 분할 후 회사 1의 경우 α P

P=μ+β1E+β2B
α,1αP1=αP이므로,E1=αE이지만B1=B 이므로 = α μ + β 1 E 1 + α β 2 B 1 입니다. 회사 2도 마찬가지입니다. 따라서 모델은 회사 규모에 따라 매우 복잡한 방식으로 결정되며E의 회귀 계수 만
αP=αμ+αβ1E+αβ2BP1=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BE회사 규모, 규모에 관계없이 모든 다른 매개 변수에 영향을 미칩니다. 결과에 대한 해석이 어려워집니다. 특히 데이터에 다양한 규모의 회사가있는 경우 이러한 계수를 어떻게 해석 할 것입니까? 다른 데이터 등을 기반으로 한 다른 연구와의 비교는 매우 복잡합니다.

이제 로그 링크 기능을 사용하면 도움이 될 수 있는지 살펴 보겠습니다. 다시, 우리는 방해 조건없이 이상적인 모델을 작성합니다. 변수는 위와 같습니다.

먼저 분할 전의 모델 : 분할 후 회사 1의 경우 P 1

P=exp(μ+β1E+β2B)
P1=exp(logα)exp(μ+β1E+β2B)P1=exp(logα+μ+β1E+β2B1)
E

P=exp(μ+β1logE+β2B)
P1=exp(logα)exp(μ+β1logE+β2B)P1=exp(logα+μ+β1logE+β2B1)P1=exp((1β)logα+μ+β1logE1+β2B1)P1=exp(μ+β1logE1+β2B1)
μ

따라서 결과 해석이 훨씬 쉬워지고 다른 데이터를 사용한 연구, 시간별 추세 등을 비교할 수 있습니다. 아이디 링크를 사용하여 크기에 독립적으로 해석되는 매개 변수로는이 양식을 작성할 수 없습니다.

결론 : 로그 링크 기능, 포아송 회귀 분석 또는 음 이항이있는 GLM을 사용하십시오. 또는 링크 기능이 더 중요합니다!

요약하면 , 카운트 변수와 같이 광범위한 반응 변수에 대한 회귀 모델을 구성 할 때

  1. 공변량을 집중적 인 형태로 표현하십시오.

  2. 광범위한 변수로 남겨 두어야하는 공변량 : 기록하십시오 (위의 대수는 최대 하나의 광범위한 공변량에 달려 있음).

  3. 로그 링크 기능을 사용하십시오.

그런 다음, 적합 기준과 같은 다른 기준은 교란 항의 분포와 같은 2 차 결정에 사용될 수 있습니다.


3
포아송 회귀 로그 링크 기능을 가진 GLS 회귀 라고 생각 했습니까?
사이드 쇼 밥

1
일반적으로 그렇습니다. 그러나 신원 (또는 다른 루트, 제곱근) 링크를 가진 포아송 회귀를 고려할 수도 있습니다. 그러나 여기의 나의 주장은 일반적으로 로그 링크를 원한다는 것을 보여줍니다.
kjetil b halvorsen 10

(1β)μ
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.