M 추정기의 경험적 헤 시안이 무기 한일 수 있습니까?


15

횡단면 및 패널 데이터의 계량 경제학 분석 (357 페이지) 에서 Jeffrey Wooldridge 는 경험적 Hessian이 "우리가 작업하고있는 특정 샘플에 대해 양의 정한 또는 심지어 반의 정한 것으로 보장되지는 않는다"고 말합니다.

이것은 (수치 적 문제를 제외하고) 헤 시안이 주어진 표본에 대한 목적 함수를 최소화하는 매개 변수의 값과 M- 추정기의 정의의 결과로 양의 반정의 값으로 정의되어야한다는 것, (지역) 최소값에서 Hessian은 양의 반 한정입니다.

내 주장이 맞습니까?

[편집 : 진술은 2 판에서 제거되었습니다. 책의. 의견을 참조하십시오.]

은 를 최소화함으로써 얻어진 추정 가정하고 여기서 는 i 번째 관측치를 나타낸다 .θ^

1나는=1(나는,θ),
나는나는

하자가의 헤센 나타낸다 하여 H ,

H(,θ)나는제이=2θ나는θ제이

\ widehat \ theta_n 의 점근 공분산 θ^에는 이자형[H(,θ0)] 여기서 θ0 은 실제 매개 변수 값입니다. 그것을 추정하는 한 가지 방법은 경험적 Hesssian을 사용하는 것입니다

H^=1나는=1H(나는,θ^)

문제가되는 것은 H^ 입니다.


1
@ Jotirmoy, 매개 변수 공간의 경계에서 최소값이 발생하면 어떻게됩니까?
추기경

@추기경. 네 말이 맞아. 그 경우 내 주장은 효과가 없다. 그러나 Wooldridge는 최소값이 내부에있는 경우를 고려하고 있습니다. 이 경우에 그가 틀리지 않습니까?
Jyotirmoy Bhattacharya

@ Jyotirmoy, 그것은 확실히 양의 반정도 일 수 있습니다. 선형 함수 또는 최소 점 세트가 볼록한 폴리 토프를 형성하는 함수를 생각해보십시오. 더 간단한 예를 들어, 에서 다항식 을 고려하십시오 . 에프(엑스)=엑스2엑스=0
추기경

1
@추기경. 진실. 나를 괴롭히는 것은 인용 된 진술에서 "짝수의 반정도"라는 문구이다.
Jyotirmoy Bhattacharya

@Jyotirmoy, 당신이 제공 할 수있는 책에 주어진 특정 형태의 M-estimator가 있습니까? 또한 고려중인 매개 변수 공간을 제공하십시오. 아마도 저자가 생각한 것을 알아낼 수있을 것입니다. 일반적으로 저자의 주장이 정확하다는 것을 이미 확립했다고 생각합니다. 형식 이나 고려중인 매개 변수 공간 에 추가 제한을두면 변경 될 수 있습니다. q
추기경

답변:


16

내 생각 엔 당신이 맞다. 본질에 대한 당신의 논증을 증류합시다 :

  1. QQ(θ)=1θ^N 은 로 정의 된 함수 최소화합니다QQ(θ)=1Ni=1Nq(wi,θ).

  2. 를 정의의 하여 를 의 헤 시안 이라고합시다 . 분화의 선형성에 의해 .Q H ( θ ) = 2 QHQ 1H(θ)=2Qθiθj1Ni=1NH(wi,θn)

  3. 가정 의 영역의 내부에 놓여 후, 양수 여야 세미 확정적.QH( θ N)θ^NQH(θ^N)

이것은 함수 에 대한 설명 일뿐입니다. 두 번째 인수 ( ) 와 관련하여 의 2 차 미분이 의 2 차 미분을 보장하는 경우를 제외하고는 어떻게 정의 되는가 산만 합니다.q θ QQqθQ


M 추정값을 찾는 것은 까다로울 수 있습니다. @mpiktas에서 제공 한 다음 데이터를 고려하십시오.

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

M-estimator를 찾기위한 R 프로시 저는 솔루션 = . 이 시점에서 목적 함수의 값 ( 의 평균 )은 62.3542와 같습니다. 다음은 적합도입니다. ( c 1 , c 2 ) ( 114.91316 , 32.54386 ) qq((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386)q

적합 1

다음은이 적합 지역에서 (로그) 목적 함수의 도표입니다.

목표 1

여기에 뭔가 비린내가 있습니다. 적합의 매개 변수는 데이터를 시뮬레이션하는 데 사용되는 매개 변수 근처 )와 매우 거리가 멀고 최소한으로 보이지 않습니다. 우리는 매우 얕은 계곡에 있습니다. 두 매개 변수의 더 큰 값으로 :(0.3,0.2)

목표 1, 3D보기

이 시점에서 Hessian의 부정적 결정자는 이것이 최소값이 아님을 확인 합니다! 그럼에도 불구하고 z 축 레이블을 보면 이 함수가 상수 4.1329 (대수 62.354)와 같기 때문에 전체 영역 내에서 5 자리 정밀도로 평평 하다는 것을 알 수 있습니다 . 이로 인해 R 기능 최소화 기 (기본 공차 포함)가 최소치에 가깝다고 결론을 내릴 수 있습니다.

실제로 솔루션은이 시점에서 멀다. 그것을 찾기 위해 Mathematica 에서 계산적으로 비싸지 만 매우 효과적인 " 주축 "방법을 사용하여 가능한 숫자 문제를 피하기 위해 50 자리 정밀도 (베이스 10)를 사용했습니다. 그것은 가까운 최소 발견 목적 함수의 값 58.292655 가지고은 "최소"보다 작은 약 6 %가 R. 발견이 최소가 매우 평탄한 예측 부에서 발생하는,하지만 플롯에서 방향 을 과장하여 타원형 윤곽선을 사용하여 실제 최소값처럼 보이게 만들 수 있습니다 .c 2(c1,c2)=(0.02506,7.55973)c2

목표 2

윤곽선은 중간에 58.29266부터 모서리에 58.29284까지입니다 (!). 다음은 로그 목표와 함께 3D 뷰입니다.

목표 2, 3D 뷰

여기서 Hessian은 양의 값입니다. 고유 값은 55062.02와 0.430978입니다. 따라서이 지점은 로컬 최소값 (전역 최소값)입니다. 다음과 일치합니다.

적합 2

다른 것보다 낫다고 생각합니다. 매개 변수 값은 확실히 더 현실적이며이 곡선 군으로 더 나아질 수 없다는 것은 분명합니다.

이 예제에서 유용한 교훈이 있습니다.

  1. 특히 비선형 피팅 및 비 이차 손실 함수를 사용하면 수치 최적화가 어려울 수 있습니다. 따라서:
  2. 다음을 포함하여 가능한 한 많은 방법으로 결과를 다시 확인하십시오.
  3. 가능하면 목적 함수를 그래프로 나타내십시오.
  4. 수치 결과가 수학 이론을 위반 한 것으로 보이면 극도로 의심하십시오.
  5. R 코드에 의해 반환 된 놀라운 매개 변수 값과 같은 통계 결과가 놀랍다면 의심 할 여지가 있습니다.

+1, 좋은 분석. 그것이 Wooldridge가 그 말을 포함시킨 이유라고 생각합니다. 나는 아직도 hessian이 무기한이 될 몇 가지 예를 생각하는 것이 가능하다고 생각합니다. 예를 들어 매개 변수 공간을 인위적으로 제한합니다. 이 예에서 매개 변수 공간은 전체 평면이므로 지역 최소값은 반 양성 헤 시안을 제공합니다. 나는 그의 질문을 받아 들일 수 있도록 Wooldridge에게 멋진 이메일을 쓸 시간이 왔다고 생각합니다.)
mpiktas

@mpiktas 예, 내부 글로벌 최소값에 무한 Hessian이 있지만 모든 매개 변수를 식별 할 수있는 문제가 있다고 확신합니다 . 그러나 Hessian이 충분히 매끄러운 내부 최소값에서 무한정 인 것은 불가능합니다. 이러한 종류의 것은 Milor 's Topology from Differentiable Viewpoint 와 같이 여러 번 입증되었습니다 . 잘못된 수치의 "솔루션"으로 인해 Wooldridge가 잘못 추측되었을 수 있습니다. (인용 된 페이지의 오타는 급하게 쓰여졌다는 것을 암시합니다.)
whuber

경계에서도 헤 시안은 긍정적일까요? 나는 책을 조사 할 것이다. 나는이 분야에 대한 지식이 부족하다는 것을 알았다. 고전적 정리는 매우 단순하므로 다른 복잡한 것이 없어야한다고 생각했습니다. 그 질문에 대답하기가 너무 어려운 이유 중 하나 일 것입니다.
mpiktas

@mpiktas 경계에서 Hessian을 정의 할 필요조차 없습니다 . Jacobian / Hessian / second 미분 행렬이 임계점에 정의 된 경우이 함수는이 행렬에 의해 결정된 2 차 형태와 같은 역할을합니다. 행렬에 양의 고유 값 음의 고유 값이있는 경우 함수 일부 방향으로 증가하고 다른 방향에서는 감소 해야합니다 . 국소 극치가 될 수 없습니다. 이것은 @Jyotirmoy가 견적에 대해 우려한 바, 이것은 기본 속성과 모순되는 것 같습니다.
whuber

매우 훌륭한 분석을 해주신 귀하와 @mpiktas에게 감사드립니다. 나는 Wooldridge가 추정 자의 이론적 특성과 수치 적 어려움을 혼동하고 있음에 동의하는 경향이 있습니다. 다른 답변이 있는지 봅시다.
Jyotirmoy Bhattacharya

7

전체 견적은 여기에서 찾을 수 있습니다 . 추정치 θ N은 최소화 문제 (의 해결책 페이지 344 )θ^N

minθΘN1i=1Nq(wi,θ)

솔루션 이 의 내부 점 인 경우 목적 함수는 두 배 미분 가능하고 목적 함수의 기울기는 0 인 경우 목적 함수의 Hessian ( )은 양의 반- 명확한.Θ Hθ^ΘH^

이제 Wooldridge는 주어진 샘플에 대해 경험적 헤 시안이 양의 한정 또는 반의 양으로 보장되는 것은 아닙니다. Wooldridge는 목적 함수 에 좋은 속성이 필요하지 때문에 입니다. 대한 고유 한 솔루션이 합니다.θ 01나는=1(나는,θ)θ0

θΘ이자형(,θ).

따라서 주어진 표본 목적 함수 에 대해 목적 함수의 Hessian이 양의 한정이 될 필요가없는 의 경계점에서 가 최소화 될 수 있습니다 . 1나는=1(나는,θ)Θ

또한 그의 책에서 Wooldridge는 수치 적으로 양의 확실한 것으로 보장되는 Hessian의 추정의 예를 제공합니다. 실제로 Hessian의 양성이 아닌 정의는 해가 경계점에 있거나 알고리즘이 해를 찾지 못했음을 나타냅니다. 일반적으로 적합 된 모형이 주어진 데이터에 적합하지 않을 수 있다는 추가 표시입니다.

다음은 수치 예입니다. 비선형 최소 제곱 문제를 생성합니다.

와이나는=1엑스나는2+ε나는

엑스[1,2]εσ2set.seed(3)엑스나는와이나는

일반적인 비선형 최소 제곱 목적 함수의 목적 함수 제곱을 선택했습니다.

(,θ)=(와이1엑스나는2)4

다음은 함수, 그레디언트 및 헤 시안 최적화를위한 R 코드입니다.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

먼저 그라디언트 및 헤 시안이 광고 된대로 작동하는지 테스트합니다.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

엑스와이

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

그라디언트는 0이지만 헤 시안은 양수가 아닙니다.

참고 : 이것은 세 번째 답변입니다. 나는 마침내 이전 버전에서 나를 피할 수있는 정확한 수학적 진술을 할 수 있었기를 바랍니다.


와이엑스=(엑스,와이)와이미디엄(엑스,θ)미디엄(엑스,θ)

@ mpiktas, 문구 때문에 첫 문장을 해석하는 방법을 모르겠습니다. 나는 두 가지 방법을 볼 수 있습니다. 하나는 내가 올바른 것으로 부르고 다른 하나는 그렇지 않습니다. 또한 엄밀히 말하면 첫 번째 단락의 두 번째 문장에 동의하지 않습니다. 위에서 보았 듯이, Hessian이 양의 한정없이 매개 변수 공간의 내부에서 최소값을 유지할 수 있습니다.
추기경

와이엑스=(엑스,와이)

@ 추기경, 나는 문구를 고쳤다. 이제 괜찮을거야. 문제를 지적 해 주셔서 감사합니다.
mpiktas

@mptikas. Wooldridge 나 나도 Hessian이 어느 곳에서나 확실하게 긍정적이어야한다고 주장하지는 않습니다. 내 주장은 내부 최대치에 대해 경험적 헤 시안은 부드러운 함수가 최대치에 도달하는 데 필요한 조건으로 양의 반 미정이어야한다는 것이다. Wooldridge가 다른 말을하고있는 것 같습니다.
Jyotirmoy Bhattacharya

3

헤 시안은 안장 지점에서 무기한입니다. 이것이 매개 변수 공간 내부의 유일한 정지 점일 수 있습니다.

업데이트 : 자세히 설명하겠습니다. 먼저 경험적 헤 시안이 모든 곳에 존재한다고 가정하자.

θ^나는(나는,)(1/)나는H(나는,θ^)θ^나는(나는,)θ^

인수θ나는(나는,θ)

0=나는˙(나는,θ),
˙(,θ)θΨ

실제로, 거의 특이하거나 조건이 맞지 않는 긍정적 인 명확한 Hessian조차도 추정값이 좋지 않으며 분산을 추정하는 것보다 걱정할 것이 더 많다는 것을 암시합니다.


엑스2와이2

+1 업데이트의 장점, 특히 마지막 단락. 이 논의 전반에 걸쳐 암시 적으로 가정되는 것처럼 헤 시안을 사용할 수있을 때, 어떤 중요한 지점을 테스트하기위한 기준 중 하나로 양의 한정을 자동으로 사용하게되므로이 문제는 발생하지 않습니다. 이로 인해 Wooldridge 인용문이 단순한 임계점이 아닌 추정 된 세계 최소값으로 Hessian과 관련이 있어야한다고 생각합니다.
whuber

1

Hessian이 지역 최소값으로 양 (세미)으로 정의되어야하는지 여부와 관련하여이 스레드에서 덤불 주위에 많은 박동이 발생했습니다. 그래서 나는 그것에 대해 분명하게 진술 할 것입니다.

(라그랑지안 헤센)

따라서 능동 구속 조건을 갖는 구속 된 문제에서 목적 함수의 Hessian은 능동 구속 조건이있는 경우 양의 반정의 일 필요는 없습니다.

노트:

1) 활성 구속 조건은 모든 동등 구속 조건과 동등으로 만족되는 불평등 구속 조건으로 구성됩니다.

2) https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions 에서 Lagrangian의 정의를 참조 하십시오 .

3) 모든 구속 조건이 선형이면 선형 함수의 2 차 미분 값이 0이므로 라그랑지안의 헤 시안 = 목적 함수의 헤 시안입니다. 그러나 이러한 제약 조건 중 하나라도 활성화되어 있으면 프로젝션 재즈를 수행해야합니다. 하한 또는 상한 제약은 선형 불평등 제약의 특별한 경우입니다. 활성화 된 유일한 구속 조건이 구속 구속 조건 인 경우, 활성 구속 조건의 야곱 항의 영 공간으로의 헤 시안 투영은 경계에있는 해당 구성 요소에 해당하는 헤 시안의 행과 열을 제거하는 것입니다.

4) 비활성 제약 조건의 라그랑주 승수는 0이므로, 활성 제약 조건이없는 경우, 라그랑지안의 헤 시안 = 목적 함수의 헤 시안이며, 아이덴티티 행렬은 활성 제약 조건의 야 코비안의 영 공간의 기초입니다. 목적 함수의 Hessian이 국소 최소값에서 양의 반한 정도 (엄격한 로컬 최소값이면 양수 한정)라는 조건이 익숙해 지도록 기준을 단순화합니다.


0

위의 긍정적 인 대답은 사실이지만 중요한 식별 가정을 생략 합니다. 모델이 식별되지 않은 경우 (또는 식별 된 경우에만) Wooldridge가 올바르게 표시 한 것처럼 PSD 이외의 경험적 Hessian을 찾으십시오. 장난감이 아닌 정신 측정 / 계량 측정 모델을 실행하고 직접 확인하십시오.


이것이 수학적으로 가능하지 않은 것처럼 보이기 때문에, 연속적으로 두 배로 구분되는 목적 함수의 Hessian이 전 세계적으로 PSD가되지 않는 방법을 보여주는 간단하고 명확한 예를 제시 할 수 있습니까?
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.