매개 변수가 초과 된 모델에 대한 Fisher 정보 매트릭스 결정자


10

매개 변수가 (성공 가능성) 인 Bernoulli 랜덤 변수 을 고려하십시오 . 우도 함수 및 Fisher 정보 ( 행렬)는 다음과 같습니다.X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

이제 성공 확률 θ1 과 실패 확률 \ theta_0 의 두 매개 변수를 가진 "매개 변수를 초과 한"버전을 θ0 . ( θ1+θ0=1 제약 조건은 매개 변수 중 하나가 중복됨을 의미합니다.)이 경우 우도 함수와 피셔 정보 매트릭스 (FIM)는 다음과 같습니다.

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

이 두 FIM의 결정 요인은 동일합니다. 또한이 속성은보다 일반적인 범주 형 모델 (즉, 두 개 이상의 상태)로 확장됩니다. 또한 0으로 제한되는 다양한 매개 변수 하위 집합이있는 로그 선형 모델로 확장되는 것으로 보입니다. 이 경우 여분의 "중복"매개 변수는 로그 분할 기능에 해당하며 두 FIM 결정 요인의 동등성은 더 큰 FIM 의 Schur 보완 을 기반으로 표시 될 수 있습니다 . (실제로, 로그 선형 모델의 경우 더 작은 FIM은 더 큰 FIM의 Schur 보완 물일뿐입니다.)

누군가이 속성이 더 큰 파라 메트릭 모델 세트 (예 : 모든 지수 패밀리)로 확장되는지 여부를 설명 하여 그러한 "확장 된"파라미터 세트를 기반으로 FIM 결정 요인을 도출 할 수 있습니까? 즉 , 차원 공간에 포함 된 차원 매니 폴드 에있는 매개 변수가 있는 주어진 통계 모델을 가정합니다 . 이제 매개 변수 집합을 확장하여 하나 이상의 차원 (다른 차원에 따라 완전히 제한됨)을 포함하고 해당 매개 변수를 기반으로 FIM을 계산하면 항상 원본을 기반으로하는 것과 동일한 결정자를 얻게됩니다. (독립) 매개 변수? 또한이 두 FIM은 어떤 관련이 있습니까?nn(n+1)(n+1)n

이 질문을하는 이유 는 추가 매개 변수 가있는 FIM이 더 단순 해 보이기 때문입니다. 내 첫 번째 생각은 이것이 일반적으로 작동하지 않아야한다는 것입니다. FIM은 각 매개 변수를 사용하여 로그 가능성의 부분 파생물을 계산합니다. 이 부분 도함수는 문제의 매개 변수가 변경되는 동안 다른 모든 매개 변수는 일정하게 유지되며 추가 (제한된) 매개 변수를 포함하면 사실이 아닙니다. 이 경우 다른 매개 변수가 일정하다고 가정 할 수 없기 때문에 편미분이 더 이상 유효하지 않은 것 같습니다. 그러나 나는 이것이 실제로 문제라는 증거를 아직 찾지 못했다. (종속 변수가있는 경우 부분 미분이 문제가되는 경우 총 미분(n+1)×(n+1)대신에 필요한가? 나는 총 파생 상품으로 FIM을 계산하는 예를 아직 보지 못했지만 아마도 해결책 일 것입니다 ...)

이러한 "확장 된"매개 변수 세트를 기반으로 FIM을 계산하는 온라인에서 찾을 수있는 유일한 예는 다음과 같습니다. 이 노트 에는 범주 분포에 대한 예가 포함되어 있으며 필요한 부분 도함수를 평소대로 계산합니다 (예 : 각 매개 변수가 독립적 인 것처럼) 매개 변수에 제약 조건이 있더라도).


1
좋은 질문! 제약 조건이 없으면 이기 때문에 Bernoulli 랜덤 변수의 두 매개 변수 사양은 다소 불행한 예라고 생각합니다. 더 이상 밀도가 아닙니다. 예를 들어 곡선 지수 패밀리에 대한 관측치를 재현 할 수 있습니까? p(X|θ1,θ0)=θ1Xθ01X
Khashaa

@Khashaa 나는 두 매개 변수 경우 (당신이 언급 한 것)에 제약 조건 적용 된다고 가정 하므로 우도 함수는 여전히 유효한 밀도입니다. 또한, 예를 들어, 0으로 제한되는 다양한 파라미터의 서브 세트를 갖는 로그 선형 모델에 대한 이러한 관찰을 재현 할 수 있습니다. 이 경우 "중복"매개 변수는 로그 파티션 기능에 해당합니다. θ1+θ2=1
Tyler Streeter

1
방법에 대한 ? N(μ,μ2)
Khashaa

답변:


4

일반 경우 정보 행렬은 곡선 법선따라서 결정 요인이 같다는 당신의 관찰은 보편적이지는 않지만 전체 이야기가 아닙니다.XN(μ,σ2)

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

일반적으로 가 재 아래의 정보 매트릭스 경우, 확인하기가 어렵지 않습니다. 원래 매개 변수에 대한 정보 매트릭스는 여기서 는 변환 의 자 코비안입니다 .Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

Bernoulli 예제의 경우 및 입니다. 따라서 Jacobian은 이므로 (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

곡선 정규 예제의 경우

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

이제 결정 요인을 쉽게 연관시킬 수 있다고 생각합니다.

의견 후 후속 조치

내가 정확하게 이해했다면, FIM은 매개 변수를 의미있는 방식으로 확장하는 한 유효합니다. 새로운 매개 변수화 가능성은 유효한 밀도 여야합니다. 따라서 Bernoulli 예제를 불행한 예제라고했습니다.

우리가 및 와 같이 제공 한 링크 가 범주 형 변수에 대한 FIM 도출에 심각한 결함이 있다고 생각합니다 . 음의 헤 시안을 기대하면 가되지만 점수 벡터의 공분산에는 해당되지 않습니다. 제약 조건을 무시하면 정보 매트릭스 평등이 유지되지 않습니다. E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}


Jacobian 변환 접근법과 간단하고 명확한 예를 언급 해 주셔서 감사합니다. 여전히 관심이있는 다음 문제에 대해 귀하 (또는 다른 사람)에게 논평 할 수 있습니까? 여기서 수행하는 것처럼 매개 변수 집합을 1 차원으로 확장 할 때 매개 변수 중 일부 파생 상품 (필요에 따라 FIM)은 이제 하나의 매개 변수를 변경하면 다른 매개 변수는 더 이상 일정하지 않기 때문에 유효하지 않습니다. FIM은 추가 제약 조건으로 인해 부분 미분 값이 유효하지 않다면 확장 된 매개 변수 세트에도 유효합니까?
Tyler Streeter

@TylerStreeter 문제를 해결하기 위해 답변을 업데이트했습니다.
Khashaa

3

결과는 매개 변수 사이의 특정 종류의 관계에 대한 것으로 보입니다.

아래 결과에 대한 전체적인 일반성을 주장하지 않고 "1 ~ 2 개의 매개 변수"사례를 고수합니다. 나타내며 개의 매개 변수 사이에 반드시 유지하는 관계를 표현하는 식을 암시. 그런 다음 "올바른 확장", "2 매개 변수"로그 우도 (OP가 계산 한 값이 아님)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
진정한 우도 동등 , 사람 , ( A는 우리는 두 매개 변수를 독립적으로 취급 할 수 있지만 우리는 차별화합니다.Lg(θ0,θ1)=0λ

파라미터 (1 개의 첨자 1 차 도함수, 2 개의 첨자 2 차 도함수)와 관련하여 미분을 표시하기 위해 첨자를 사용하면, 정확한 확장 로그 우도의 Hessian 결정자는

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

대신 OP는 무엇을하고 있습니까?

그는 제약 가능성 를 고려하지 않고 두 매개 변수 간의 관계를 "무시" 하는 잘못된 가능성 을 고려합니다 . 그런 다음 차별화를 진행하고L(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

이 분명하다 일반적으로 동일하지 않다 .(2)(1)

그러나 만약 이어서,g00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

따라서 실제 매개 변수와 중복 매개 변수 사이의 관계가 이들을 연결하는 암시 적 함수의 두 번째 부분 미분 값이 모두 0 이면 근본적으로 잘못된 접근 방식은 "올바른"결과를 낳습니다.

베르누이 사건의 경우, 우리는 실제로

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

부록
@Khashaa 질문에 응답하고 여기서 역학을 보여주기 위해 중복 매개 변수로 지정된 가능성을 고려하지만 중복 매개 변수를 실제 매개 변수와 연결하는 제한 조건 하에서도 고려합니다. 로그 우도를 사용하여 수행하는 작업은 로그 가능성을 최대화하는 것입니다. 따라서 여기에는 제한적인 최대화 사례가 있습니다. 크기가 인 표본을 가정합니다 .n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

이 문제에는 Langrangean이 있습니다 (비공식적으로 위의 "올바른 확장 가능성"이라고 함).

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

최대의 1 차 조건은

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

우리가 관계를 얻는

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

위에서 유효하에있는 제약 조건을 사용하여, 우리 수득θ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

우리가해야 할대로.

또한, 모든 매개 변수 에서 구속 조건이 선형 이므로 이차 미분 값은 0이됩니다. 이것은 lagrangean의 1 차 파생물에서 승수 "독립적"이며 lagrangean의 2 차 파생물을 취할 때 제거 될 것이라는 사실에 반영됩니다. 그러면 제약 조건 (OP 가하는 일)도 부과 한 후 결정 요인이 원래의 1 매개 변수 로그 우도의 (1 차원) 이차 미분과 같은 Hessian으로 이어질 것입니다. 그런 다음 두 경우 모두 예상 값의 음수를 취해도이 수학적 동등성은 바뀌지 않으며 "1 차원 Fisher Information = 2 차원 Fisher Information의 결정 요인"관계에 도달합니다. 지금λ주어진 제약 모든 파라미터 선형 즉, OP 인해의 이차 미분 레벨 존재 / 효과에 최대화 할 수있는 기능의 배율로 제약을 도입하지 않고 (초 미분 레벨)과 동일한 결과를 얻는다 이 경우 제약이 사라집니다.

이 모든 것은 통계적 개념이 아니라 미적분과 관련이 있습니다.


나는 당신의 논리를 따를 수 없습니다. 왜 Lagrangean과 같은 가 "올바른 확장", "2 모수"로그 가능성으로 간주 되는지 설명해 주 시겠습니까? 또한 헤 시안은 나에게 완전히 신비합니다. 관측 된 정보 매트릭스를 계산하고 있습니까? Le
Khashaa

@Khashaa "Hessian"은 다변량 함수의 2 차 도함수의 행렬이라는 용어가 확립되었습니다.
Alecos Papadopoulos 2016

OP의 특정 예가 존재하기 때문에 여기에 downvoter가 답변을 게시 하고 설명을 요구하면 도움이 될 것 입니다.
Alecos Papadopoulos 2016

내 질문이 명확하지 않은 경우 죄송합니다. 내 질문은 당신이 Hessian을 정보 매트릭스에 어떻게 연결했는지에 관한 것이 었습니다. 또한, 가 정확한 로그 가능성 인 이유를 설명 할 수 있습니까? 제한된 가능성을 평가하는 몇 가지 원칙적인 방법을 사용하고 있지만 어떻게 작동하는지 이해할 수 없습니다. Le
Khashaa

@Khashaa 나는 OP의 예를 사용하여 박람회를 추가했습니다.
Alecos Papadopoulos
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.