Fisher 정보 매트릭스 및 Hessian 및 표준 오류와의 관계에 대한 기본 질문


54

좋아, 이것은 매우 기본적인 질문이지만 조금 혼란 스럽습니다. 내 논문에서 나는 다음과 같이 쓴다.

표준 오차는 (관측 된) 피셔 정보 매트릭스의 대각선 요소의 제곱근의 역수를 계산하여 찾을 수 있습니다.

sμ^,σ^2=1I(μ^,σ^2)
R의 최적화 명령이 최소화하기 때문에 Hessian의 역수를 계산하여 (관측 된) Fisher 정보 매트릭스를 찾을 수 있습니다. logL
I(μ^,σ^2)=H1

내 주요 질문 : 이것이 내가 말하고있는 것이 맞 습니까?

나는 7 페이지 의이 소스 에서 다음과 같이 말하기 때문에 약간 혼란 스럽 습니다.

정보 행렬은 Hessian 행렬의 예상 값의 음수입니다.

(따라서 헤 시안의 역수는 없습니다.)

7 페이지 (각주 5) 의이 출처 에서 다음과 같이 말합니다.

관찰 된 Fisher 정보는 .(H)1

(따라서 반대입니다.)

빼기 부호와 사용시기 및 사용하지 않을 때를 알고 있지만 역수를 구하는 데 차이가있는 이유는 무엇입니까?


@COOLSerdash 수정 사항과 +1에 감사하지만이 출처 : unc.edu/~monogan/computing/r/MLE_in_R.pdf 7 페이지는 관측 된 Fisher 정보가 Hessian의 INVERSE와 동일하다는 것을 분명히 밝히고 있습니까?
Jen Bohold

@COOLSerdash 좋아, 당신은 이것을 답변으로 게시 할 수 있습니다.
Jen Bohold

답변:


75

Yudi Pawitan 그의 책에 기록 십중팔구 최대 우도 추정 (MLE)에서 평가 로그 - 가능성의 이차 미분이 있음을 관찰 피셔 정보 (항목 이 문서를 , 2 페이지). 이것이 바로 대부분의 최적화 알고리즘 optimR대가로하는 것과 같습니다 . 때 부정적인로그 가능성이 최소화되고, 부정적인 Hessian이 반환됩니다. 올바르게 지적했듯이 MLE의 추정 표준 오차는 관측 된 Fisher 정보 매트릭스의 역의 대각선 요소의 제곱근입니다. 다시 말해, Hessian (또는 음의 Hessian) 역의 대각선 요소의 제곱근은 추정 된 표준 오차입니다.

요약

  • MLE에서 평가 된 음성 Hessian은 MLE에서 평가 된 관찰 된 Fisher 정보 매트릭스와 동일합니다.
  • 주요 질문과 관련하여 : 아닙니다 . (음수) Hessian을 반전시켜 관찰 된 Fisher 정보를 찾을 수있는 것은 올바르지 않습니다 .
  • 두 번째 질문과 관련하여 : (음수) 헤 시안의 역수는 점근 적 공분산 행렬의 추정값입니다. 따라서 공분산 행렬의 대각선 요소의 제곱근은 표준 오차의 추정값입니다.
  • 나는 당신이 연결하는 두 번째 문서가 잘못되었다고 생각합니다.

공식적으로

를 로그 우도 함수라고 하자 . 피셔 정보 행렬 대칭 인 항목 함유 매트릭스 : 관찰 피셔 정보 행렬은 단순히 정보 행렬은 최대 가능성 추정치 (MLE)에서 평가됩니다. Hessian은 다음과 같이 정의됩니다 : l(θ) I(θ)(p×p)

I(θ)=2θiθjl(θ),    1i,jp
I(θ^ML)
H(θ)=2θiθjl(θ),    1i,jp
모수와 관련하여 우도 함수의 2 차 도함수 행렬 외에는 아무것도 없습니다. 음의 로그 우도 를 최소화하면 반환 된 Hessian은 관측 된 Fisher 정보 매트릭스와 동일하지만 로그 우도를 최대화하는 경우 음의 Hessian은 관찰 된 정보 매트릭스입니다.

또한 Fisher 정보 행렬의 역수는 점근 공분산 행렬의 추정값입니다. 표준 오차는 공분산 행렬의 대각 요소의 제곱근입니다. 최대 우도 추정치의 점근 분포를 위해 여기서 은 실제 매개 변수 값을 나타냅니다. 따라서 최대 우도 추정치의 추정 표준 오차는 다음과 같이 계산됩니다.

Var(θ^ML)=[I(θ^ML)]1
θ^MLaN(θ0,[I(θ^ML)]1)
θ0
SE(θ^ML)=1I(θ^ML)

1
"음의 로그 가능성이 최소화 될 때 "또는 최적화되어 있어야합니다 .
cmo

8
(예상 한) Fisher 정보는 . 관측 된 (Fisher) 정보는 단지 이므로, 최대 가능성 추정치 인 평가 되기 때문이 아니라 가능한 관측치에 대한 평균보다는 관측 된 데이터의 함수이기 때문에 호출됩니다. 이것은 일 때 전체 지수 패밀리의 정식 매개 변수에 대한 유추를 고려한 익숙한 예제의 경우에 잘 않습니다. I(θ)=EI(θ)I(θ)θI(θ)=I(θ)
Scortchi-Monica Monica 복원

6

우도 함수 추정에는 2 단계 프로세스가 수반됩니다.

먼저, 로그 우도 함수를 선언합니다. 그런 다음 로그 우도 함수를 최적화합니다. 괜찮아.

R에서 로그 우도 함수를 작성하는 경우 R 의 optim 명령이 기본적으로 함수를 최소화하기 때문에 (여기서 은 로그-우도 함수를 나타냄)을 요청합니다. -l의 최소화는 l의 최대화와 동일합니다. 이것이 우리가 원하는 것입니다.1ll

관측 된 Fisher Information Matrix는 과 같습니다 . 우리가 hassian에 -1을 곱할 필요가없는 이유는 모든 평가가 로그 우도의 -1 배로 수행 되었기 때문입니다. 이것은 optim에 의해 생성 된 hessian에 이미 -1을 곱한 것을 의미합니다(H)1

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.