지수 모델의 추정


10

지수 모델은 다음 방정식으로 설명되는 모델입니다.

yi^=β0eβ1x1i++βkxki

이러한 모델을 추정하는 데 사용되는 가장 일반적인 방법은 선형화이며, 이는 양쪽의 로그를 계산하여 쉽게 수행 할 수 있습니다. 다른 접근법은 무엇입니까? 나는 일부 관측에서 yi=0 을 처리 할 수있는 것들에 특히 관심이 있습니다 .

업데이트 31.01.2011
이 모델이 0을 생성 할 수 없다는 사실을 알고 있습니다. 모델링하는 내용과이 모델을 선택하는 이유를 조금 자세히 설명하겠습니다. 고객이 상점에서 소비하는 금액을 예측하려고한다고 가정 해 봅시다. 물론 많은 고객들이 찾고 있고 아무것도 구매하지 않습니다. 그 이유는 0입니다. 선형 모델은 음의 값을 많이 생성하기 때문에 사용하고 싶지 않습니다. 다른 이유는이 모델이 선형보다 훨씬 더 잘 작동하기 때문입니다. 나는 유전 알고리즘을 사용하여 이러한 매개 변수를 추정했기 때문에 '과학적인'접근법이 아니 었습니다. 이제 더 과학적인 방법으로 문제를 해결하는 방법을 알고 싶습니다. 또한 대부분 또는 모든 변수가 이진 변수라고 가정 할 수 있습니다.


1
데이터에 0이 있으면 지수 회귀가 적절하지 않을 수 있습니다. 언급 한 모델에서는 0 값을 관찰 할 수 없기 때문입니다.
mpiktas

답변:


11

여기 몇 가지 문제가 있습니다.

(1) 모델은 명시 적으로 확률 적이어야 합니다. 거의 모든 경우 에 lhs가 모든 데이터의 rhs와 일치하는 매개 변수 세트 가 없습니다 . 잔차가 있습니다. 이러한 잔차에 대해 가정해야합니다. 평균적으로 0이 될 것으로 예상합니까? 대칭 적으로 분포 되려면? 대략 정규 분포되어 있습니까?

다음은 지정된 모델과 일치하지만 크게 다른 잔차 동작을 허용하는 두 가지 모델입니다 (따라서 일반적으로 다른 모수 추정치가 발생 함). 의 공동 분포에 대한 가정을 다양하게 변경하여 이러한 모델을 변경할 수 있습니다 .ϵi

B : y i = β 0 exp ( β 1 x 1 i + + β k x k i ) + ϵ 나는 .

ㅏ: 와이나는=β0특급(β1엑스1나는++β케이엑스케이나는+ϵ나는)
비: 와이나는=β0특급(β1엑스1나는++β케이엑스케이나는)+ϵ나는.

와이나는와이나는^

(2) y에 대한 0 값을 처리 할 필요성 은 언급 된 모델 (A)가 임의의 오류가 무엇이든 상관없이 0 값을 생성 할 수 없기 때문에 잘못되었거나 부적절하다는 것을 의미 합니다 . 위의 두 번째 모델 (B)은 y의 0 (또는 음수) 값을 허용합니다. 그러나 그러한 기준에 따라 모델을 선택해서는 안됩니다. # 1을 되풀이하려면 : 오류를 합리적으로 잘 모델링하는 것이 중요합니다.

(3) 선형화는 모델을 변경합니다 . 일반적으로 (A)와 같지만 (B)와 같은 모델이 아닙니다. 이 변화는이 변화가 매개 변수 추정치에 눈에 띄게 영향을 미치지 않을 것이라는 것을 알기에 충분히 데이터를 분석 한 사람들과 사용중인 일에 대해 무지한 사람들에 의해 사용됩니다. (차이를 말하기는 여러 번 어렵습니다.)

와이

에프(와이나는)에프(θ);θ제이=β제이0+β제이1엑스1나는++β제이케이엑스케이나는

θ F θ 1 , , θ j f y Pr F θ [ f ( Y ) t ] ( 1 θ j + 1 ) F θ ( t ) t 0홍보에프θ[에프(와이)=0]=θ제이+1>0θ에프θ1,,θ제이에프와이홍보에프θ[에프(와이)](1θ제이+1)에프θ()0

(5) 모델 구성 및 피팅 문제는 관련이 있지만 다릅니다 . 간단한 예로, 일반 회귀 모형 최소 제곱을 통해 여러 방법으로 적합 할 수 있습니다 (최대 가능성과 동일한 매개 변수 추정값 및 거의 동일한 표준 오류를 제공함). 반복적으로 가중 된 최소 제곱 , 다양한 다른 형태의 " 강한 최소 제곱 "등. 피팅 선택은 종종 편의성, 편의성 ( 예 : 소프트웨어의 가용성), 친숙 함, 습관 또는 관습 에 근거 하지만, 최소한 몇 가지 생각이 있어야합니다. 오류 용어 의 가정 된 분포에 적합한 것에 대해ϵ i와이=β0+β1엑스+ϵϵ나는문제에 대한 손실 기능 은 합리적 일 수 있으며 추가 정보 (예 : 매개 변수에 대한 사전 분배) 를 이용할 가능성이있을 수 있습니다 .


10

이것은 로그 링크 기능 이있는 일반화 된 선형 모델 (GLM)입니다 .

에서 0이 아닌 밀도로 에 대한 확률 분포 는 일부 관측에서 을 처리합니다 . 가장 일반적인 것은 포아송 분포이며 포아송 회귀 는 일명 로그 선형 모델링입니다. 다른 선택은 음의 이항 분포 입니다.y i = 0[0,)yi=0

당신은 카운트 데이터가없는 경우, 또는 경우 정수가 아닌 값을 사용합니다, 당신은 아직도 완전히에 대한 분포를 지정하지 않고 모델 선형 일반화의 프레임 워크를 사용할 수 있습니다 대신하지만, 유사 가능성을 사용하여 평균과 분산 간의 관계 만 지정합니다 . P ( y i | x )yiP(yi|x)


나는 대학에서 그것에 대해 배우지 않은 부끄러운 일 : /이 경우에는 도움이 될 것 같지만 세부 사항에 대해 자세히 알아볼 시간이 필요합니다. 감사!
Tomek Tarczynski

는 합리적인 경우에 항상 정수 값으로 를 수 있습니다 (예 : 파운드 / 달러보다는 펜스 / 센트 측정). 상품 가격의 펜스 / 센트 부분의 분포가 매우 고르지 않기 때문에 (즉, 대부분 99) 가장 가까운 파운드 / 달러로 반올림 할 수도 있습니다. yi
James

3

항상 비선형 최소 제곱을 사용할 수 있습니다 . 그런 다음 모델은 다음과 같습니다.

yi=β0exp(β1x1i+...+βkxki)+εi

의 0은 비선형 추세와의 편차로 처리됩니다.yi


매개 변수의 초기 값은 어떻습니까? 그들을 선택하는 좋은 방법은 무엇입니까? 업데이트에서 언급했듯이 연속 변수가 없다고 가정 할 수 있습니다.
Tomek Tarczynski

@Tomek, 나는 그들을 선택하는 좋은 방법이 없다고 생각합니다. 일반적으로 데이터에 따라 다릅니다. 절편에 대한 평균을 제안하고 다른 계수에 대해서는 0을 제안합니다.
mpiktas
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.