lme4의 수렴 경고에 대해 얼마나 두려워해야합니까?


88

우리가 글머를 다시 장착하면 모델이 수렴하기 어려운 시간을 찾고 있다는 경고를받을 수 있습니다 ... 예 :

>Warning message:
In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv,  :
  Model failed to converge with max|grad| = 0.00389462 (tol = 0.001)

@Ben Bolker 가이 스레드 에서 설명한 수렴을 확인하는 다른 방법 은 다음과 같습니다.

 relgrad <- with(model@optinfo$derivs,solve(Hessian,gradient))
 max(abs(relgrad))
 #[1] 1.152891e-05

만약 max(abs(relgrad))<0.001 다음이 경우에 우리가 충돌하는 결과가 그래서 일이 ... 확인 될 수 있을까요? 모델에 맞는 방법을 선택하고 안전하다고 생각해야합니까?

반면에 다음과 같은 극단적 인 가치를 얻을 때

>Warning message:
In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv,  :
  Model failed to converge with max|grad| = 35.5352 (tol = 0.001)

relgrad <- with(model@optinfo$derivs,solve(Hessian,gradient))
max(abs(relgrad))
#[1] 0.002776518

이는 모델 결과 / 추정 / p- 값을 무시해야한다는 의미입니까? 진행하기에 0.0027이 너무 큽니까?

다른 옵티마이 저가 다른 결과를 제공하고 변수의 중심을 맞추거나 매개 변수를 제거 (모형을 최소로 줄임)하는 것이 도움이되지 않지만 VIF가 낮고, 모델이 과도하게 분산되지 않으며, 모델 결과가 사전 예상에 따라 논리적으로 의미가있는 경우, 알기 어려운 것 같습니다 해야 할 일.

컨버전스 문제를 해석하는 방법에 대한 조언, 실제로 우리를 걱정하게 만드는 데 필요한 극단과 언급 된 것 이상으로 문제를 관리하는 방법은 매우 도움이 될 것입니다.

사용 : R version 3.1.0 (2014-04-10)lme4_1.1-6


10
최신 버전 lme4(버전 1.1-7)은 저자가 "거짓 경보"경고를 줄 가능성이 적다고 생각하는 경고 동작이 다릅니다. lme4최신 버전으로 업데이트 하고 모델을 다시 맞추고 적어도 첫 번째 경우에는 여전히 비슷한 경고가 표시되는지 확인할 수 있습니다.
Jake Westfall

답변:


91

두려워 매우 두려워하십시오.

작년에 저는 IBM DeveloperWorks 사이트의 기사 를 위해 optim and optimx의 저자 인 John Nash를 인터뷰했습니다 . 우리는 옵티마이 저가 작동하는 방식과 실패했을 때 실패하는 이유에 대해 이야기했습니다. 그는 그들이하는 일을 당연한 것으로 여겼습니다. 이것이 진단이 패키지에 포함 된 이유입니다. 또한 "문제를 이해하고"데이터를 이해해야한다고 생각했습니다. 이 모든 것은 경고를 심각하게 받아 들여야하며 다른 방식으로 데이터를 보도록 권유하는 것입니다.

일반적으로 옵티마이 저는 더 이상 의미있는 양만큼 손실 기능을 개선 할 수 없을 때 검색을 중지합니다. 기본적으로 다음에 어디로 가야할지 모르겠습니다. 이 시점에서 손실 함수의 기울기가 0이 아닌 경우 어떤 종류의 극한도에 도달하지 않은 것입니다. Hessian이 양수는 아니지만 그래디언트가 0이면 최소값을 찾지 못했지만 최대 값 또는 중철 점을 찾은 것입니다. 그러나 옵티 마이저에 따라 Hessian에 대한 결과가 제공되지 않을 수 있습니다. Optimx에서 KKT 조건을 평가하려면 요구해야합니다. 기본적으로 평가되지는 않습니다. (이 조건은 그래디언트와 Hessian을보고 실제로 최소값이 있는지 확인합니다.)

혼합 모형의 문제점은 랜덤 효과에 대한 분산 추정치가 양수로 제한되어 최적화 영역 내에 경계를 배치한다는 것입니다. 그러나 모델에 특정 랜덤 효과가 실제로 필요하지 않다고 가정합니다. 즉, 랜덤 효과의 분산이 0입니다. 옵티마이 저가 해당 경계로 향하고 진행할 수 없으며 0이 아닌 그래디언트로 중단됩니다. 이 임의의 효과를 제거하면 수렴이 향상되면 이것이 문제라는 것을 알 수 있습니다.

또한 점근 적 최대 우도 이론은 MLE가 내부 지점에서 발견된다고 가정합니다 (즉, licit 매개 변수 값의 경계에 있지 않음). 참된. 패키지 RLRsim에 구현 된 시뮬레이션 테스트를 사용하여 테스트를 수행 할 수 있습니다.

필자는 매개 변수 수에 대한 데이터가 너무 적거나 제안 된 모델이 실제로 적합하지 않은 경우 최적화 프로그램에서 문제가 발생한다고 생각합니다. 유리 구두와 못생긴 의붓 자매를 생각하십시오. 아무리 노력해도 무언가를 주어야 할지라도 데이터를 모델에 넣을 수는 없습니다.

데이터가 모형에 적합하더라도 모든 매개 변수를 추정 할 수있는 권한이 없을 수 있습니다. 그 선을 따라 재미있는 일이 일어났습니다. 나는 혼합 모델을 시뮬레이션하여질문혼합 효과 모델을 피팅 할 때 임의 효과를 상관시키지 않으면 어떻게됩니까? 두 랜덤 효과 사이에 강한 상관 관계로 데이터를 시뮬레이션 한 다음 lmer를 사용하여 두 가지 방법으로 모델을 맞추십시오 : 0 상관 관계 및 자유 상관 관계. 상관 관계 모델은 상관되지 않은 모델보다 더 적합하지만 흥미롭게도 1000 시뮬레이션에서 실제 모델을 피팅 할 때 13 개의 오류가 있고 간단한 모델을 피팅 할 때 0 개의 오류가 발생했습니다. 왜 이런 일이 발생했는지 이해하지 못합니다 (심지어 비슷한 결과로 시뮬레이션을 반복했습니다). 상관 관계 매개 변수가 상당히 쓸모없고 옵티마이 저가 값을 찾을 수 없다고 생각합니다 (중요하지 않기 때문에).

다른 옵티마이 저가 다른 결과를 제공 할 때 수행 할 작업에 대해 질문했습니다. 존과 나는이 점에 대해 토론했다. 그의 견해로는 일부 최적화 프로그램은 그다지 좋지 않습니다! 그리고 모두 약점을 가지고 있습니다. 즉, 데이터 세트가 실패 할 수 있습니다. 이것이 그가 다양한 옵티 마이저를 포함하는 optimx를 작성한 이유입니다. 동일한 데이터 세트에서 여러 개를 실행할 수 있습니다.

두 개의 옵티마이 저가 동일한 매개 변수를 제공하지만 다른 진단 (및 해당 매개 변수가 실제 의미가 있음)을 제공하는 경우 매개 변수 값을 신뢰하는 경향이 있습니다. 어려움은 바보가 아닌 진단에 놓여있을 수 있습니다. 그래디언트 함수 및 / 또는 Hessian 행렬을 명시 적으로 제공하지 않은 경우 옵티마이 저는 손실 함수 및 데이터에서이를 추정해야합니다.

다른 매개 변수 값을 얻는 경우 다른 시작 값을 시도하고 결과를 확인하십시오. 일부 옵티 마이저 및 일부 문제는 시작 값에 매우 민감합니다. 당신은 볼 파크에서 시작하고 싶습니다.


3
아아! 방금이 질문을 열어 "두려워하십시오. 매우 두려워하십시오." 농담. 너에게 좋다. 또한 실제 답변에 포함시키는 것도 좋으며, 그럴 의도는 없었습니다.
Alexis

2
내쉬가 쓴 책을 읽어야합니다. 헤 시안을 결정하는 것은 실제로 매우 어렵 기 때문에 옵티마이 저가 많은 경우에 수렴했을 수 있지만 헤 시안은 정확하지 않으므로 다른 옵티 마이저에서 유사한 결과를 얻을 수 있지만 수렴 경고는 헤센이 모델이 아닌 가짜 일 때가 자주 발생합니다. Hessian 또는 기울기 테스트는 안심할 수있는 것입니다. 경우에 따라 경계 제약 조건이있는 옵티마이 저가있는 경우 hessian이 그다지 의미가 없지만 hessian 알고리즘이이를 고려하지 않고 (lme4와 같이) 경계를 설정합니다.

18

@Placidia의 훌륭한 답변을 보완하고 싶습니다. James Hodges (2014)의 "Richly Parameterized Linear Models : Additive, Time Series, and Space Models Using Random Effects"(2014 년) 우리는 혼합 모델에 대해 우리가 알지 못하는 것을 토론하고 동시에 복잡한 이론에 맞는 실용적인 팁과 광범위한 이론을 제공하려고 시도합니다.

종종 무서워하는 모델러 인 Hodge의 "퍼즐"에 대한 토론은 매우 귀중합니다. 그는 "고정 효과와 경쟁하는 임의의 효과"및 "무작위 효과 간의 경쟁"을 포함하여 혼합 효과 모델링을 적용하여 발생하는 이상한 사례를 설명합니다. 익숙한가?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.