로그 우도 대 우도를 사용하는 이론적 동기


18

통계와 확률 이론에서 로그 우도의 유비쿼터스 (그리고 아마도 일반적으로 로그 확률)를 더 깊이 이해하려고합니다. 로그 확률은 모든 곳에서 나타납니다. 우리는 일반적으로 분석을 위해 로그 가능성으로 작업합니다 (예 : 최대화), Fisher 정보는 로그 가능성의 2 차 미분으로 정의되며 엔트로피는 예상 로그 확률입니다. Kullback-Liebler 분기에는 로그 확률이 ​​포함되며, 예상 차이는 예상 로그 우도 등입니다.

실용 적이고 편리한 많은 이유에 감사드립니다 . 많은 공통적이고 유용한 pdf는 지수 군에서 나 왔으며, 이는 로그 변환시 용어를 우아하게 단순화시킵니다. 합계는 제품보다 작업하기가 더 쉽습니다 (차별적으로). 로그 프로브는 직선 프로브에 비해 큰 부동 소수점 이점이 있습니다. PDF를 로그 변환하면 종종 오목하지 않은 함수가 오목한 함수로 변환됩니다. 그러나 로그-프로브에 대한 이론적 이유 / 정당화 / 동기 란 무엇입니까?

난처한 예로써 Fisher 정보 (FI)를 고려하십시오. FI를 초기화하는 일반적인 설명은 로그 우도의 2 차 미분이 로그 우도가 어떻게 "피크"되었는지 알려줍니다. 높은 정점 로그 우도는 MLE가 잘 지정되어 있고 상대적으로 가치가 있음을 의미합니다 거의 평평한 로그 우도 (곡률이 낮음)는 많은 다른 매개 변수 값이 MLE만큼 거의 (로그 우도 측면에서) 우수하다는 것을 의미하므로 MLE가 더 불확실합니다.

이것은 모두 좋고 훌륭하지만 가능성 함수 자체의 곡률을 찾는 것이 더 자연스럽지 않습니까 (로그 변환되지 않음)? 언뜻보기에 로그 변환에 대한 강조는 임의적이며 잘못된 것 같습니다. 우리는 실제 우도 함수의 곡률에 더 관심이 있습니다. 대신 점수 함수와 로그 가능성의 헤 시안을 사용하는 Fisher의 동기는 무엇입니까?

대답은 단순히 로그 가능성에서 무조건적으로 좋은 결과를 얻는다는 것입니까? 예 : Cramer-Rao 및 MLE / 후면의 정규성. 아니면 더 깊은 이유가 있습니까?


2
나는 비슷한 질문을 했다
Haitao Du

답변:


13

그것은 실제로 로그 가능성의 편의 일뿐입니다.

나는 합계 대 제품의 편리함을 의미합니다 : , 차등 또는 통합과 같은 여러 측면에서 합계를 다루기가 더 쉽습니다. 기하 급수적 인 가족에게는 편의가 아닙니다.ln(ixi)=ilnxi

임의 표본을 다룰 때의 가능성은 다음과 같습니다. 이므로 로그 가능성은이 제품을 합으로 나눠서 조작 및 분석하기가 더 쉽습니다. 그것은 우리가 걱정하는 모든 것이 최대의 지점이되고, 최대 값은 중요하지 않으므로 로그와 같은 단조로운 변환을 적용 할 수 있습니다.L=ipi

곡률 직관. 기본적으로 로그 가능성의 2 차 파생물과 기본적으로 동일합니다.

업데이트 : 이것이 곡률에 대한 의미입니다. 함수가있는 경우 곡률은 다음과 같습니다 ( Wolfram의 (14) 참조 ) : y=f(x)

κ=f(x)(1+f(x)2)3/2

로그 우도의 2 차 미분 :

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

최대 점에서 첫 번째 도함수는 분명히 0이므로 다음과 같이 얻을 수 있습니다. 따라서 내 곡률은 가능성과 로그 가능성의 두 번째 파생물은 같은 것입니다.

κmax=f(xmax)=Af(xmax)

다른 한편으로, 우도의 1 차 미분이 최대 일 때뿐만 아니라 최대 지점에서 작다면, 즉 우도 함수가 평평하면 다음과 같이됩니다 : 이제 평평한 가능성은 우리에게 좋은 것이 아닙니다. 최대 값을 수치 적으로 찾는 것이 더 어려워지고, 최대 가능성은 주변의 다른 지점보다 우수하지 않습니다. 즉 모수 추정 오차가 높습니다.

κf(x)Af(x)

그리고 다시, 우리는 여전히 곡률과 이차 미분 관계가 있습니다. 그러면 Fisher는 가능성 함수의 곡률을 보지 않은 이유는 무엇입니까? 나는 그것이 같은 편의 이유라고 생각합니다. 곱 대신 합계로 인해 로그 가능성을 조작하는 것이 더 쉽습니다. 그래서 그는 로그 우도의 2 차 미분을 분석함으로써 우도의 곡률을 연구 할 수있었습니다. 곡률 대한 방정식은 매우 단순 해 보이지만 실제로는 2 차 도함수보다 더 복잡한 2 차 도함수를 사용합니다.κmax=f(xmax)

업데이트 2 :

여기 데모가 있습니다. 나는 (완전히 구성된) 우도 함수, a) 곡률 및 b) 로그의 2 차 도함수를 그립니다. 왼쪽에는 좁은 가능성이 있으며 오른쪽에는 넓습니다. 최대 가능성의 시점에서 a)와 b)가 어떻게 수렴되는지를 알 수 있습니다. 더 중요한 것은 로그 가능성의 2 차 도함수를 조사하여 가능성 함수의 너비 (또는 평탄도)를 연구 할 수 있습니다. 필자가 앞서 언급 한 것처럼 후자는 분석하는 것보다 기술적으로 간단합니다.

놀랍게도 더 큰 로그 우도 신호의 2 차 미분은 최대 근방에서 더 평평한 우도 함수를 나타내며, 이는 더 큰 모수 추정 오차를 유발하기 때문에 바람직하지 않습니다.

여기에 이미지 설명을 입력하십시오

플롯을 재현하려는 경우의 MATLAB 코드 :

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

업데이트 3 :

위의 코드에서 임의의 종 모양의 함수를 곡률 방정식에 꽂은 다음 로그의 두 번째 미분을 계산했습니다. 나는 스케일을 다시 조정하지 않았으며, 값은 앞에서 언급 한 동등성을 보여주기 위해 방정식에서 직선적입니다.

여기 Mathmatics의 가능성에 매우 첫 번째 논문은, 피셔는 "주파수 곡선 피팅에 대한 절대 기준에"대학에있는 동안 아직 간행 메신저, 41 : 155-160 (1912)

내가 계속 주장하면서 그는 엔트로피 및 다른 멋진 주제에 대한 로그 확률의 "더 깊은"연결에 대해서는 언급하지 않았지만 아직 정보 기준을 제공하지도 않습니다. 그는 간단히 p.54에 방정식 를 넣고 확률을 최대화하는 것에 대해 이야기합니다. 제 생각에 이것은 그가 로그를 공동 확률 자체를 분석하는 편리한 방법으로 사용하고 있음을 보여줍니다. 그가 P.55에 명백한 화학식을 제공하는 연속적인 곡선 피팅에 특히 유용하다 : 행운이 확률 분석 (또는 확률 당을 로그없이)!logP=1nlogp

logP=logfdx
P

논문을 읽을 때 주목해야 할 한 가지는 최대 가능성 추정 작업으로 시작했으며 이후 10 년 동안 더 많은 작업을 수행했기 때문에 MLE이라는 용어조차도 아는 한 아직 만들어지지 않았습니다.


5
최종 곡률 (곡률에 대한)은 실제로 로그 가능성에 대한 근본이 있으며 로그를 가져 오는 것이 단순한 "편의성"이 아니라는 것을 암시합니다. 나는 당신이 생각하는 것보다 훨씬 더 많은 일이 일어나고 있다고 생각합니다.
whuber

2
곡률에 대한 논의는 로그 우도 분석과 우도 자체 분석을 구분하지 않기 때문에 적합하지 않은 것으로 보입니다. 이 답변은 "로그가 편리합니다"로 내려 오는 것 같지만 다른 답변이 제안하기 시작하면서 그보다 더 많은 문제가 있습니다.
whuber

@ Aksakal 좋아, 고마워, 나는 지금 이것을 본 것 같아요. 우도 함수는 임의의 곱셈 상수까지 지정됩니다. 따라서 최대 값 의 우도 값 도 임의적입니다. 예를 들어, 단위 정규화 가능성 함수를 사용하는 것이 일반적 입니다. 이 경우 우도의 이차 미분과 로그 우도는 최대가됩니다. f(xmax)f(xmax)=1
ratsalad

따라서 Fisher 정보에 로그 우도를 사용하면 분명히 두 가지 실제적인 목적을 제공합니다. (1) 로그 우도를 사용하는 것이 더 쉽고 (2) 임의의 스케일링 계수를 자연스럽게 무시합니다. 그리고 그것은 직선 가능성의 2 차 미분과 같은 답을 제공합니다. 이것은 나에게 중요한 점으로 보입니다. 명백하지 않았으며 통계 텍스트에 언급 된 적이 없습니다. 아마도 피셔에게 알려졌을 것입니다.
ratsalad

f ( x m a x ) = 1 f ( x m a x ) = ( ln f ( x ) )
f(xmax)=(lnf(x))f(xmax)
및 임의의 곱셈 상수를f(xmax)=1
f(xmax)=(lnf(x))
ratsalad

5

추가 사항 . 일반적으로 사용되는 확률 분포 (정규 분포, 지수 분포, 라플라스 분포를 포함하여 일부)는 로그 오목 입니다. 이것은 그들의 로그가 오목 함을 의미합니다. 이렇게하면 원래 확률을 최대화하는 것보다 로그 확률을 훨씬 쉽게 만들 수 있습니다 (최대 가능성 또는 최대 a-posteriori 방법에서 특히 편리함). 예를 들어, 다변량 가우시안 분포를 직접 최대화하기 위해 뉴턴의 방법 을 사용 하면 포물면 (다변량 가우시안 분포의 로그)을 최대화하는 데 정확히 한 단계가 걸립니다.


2
그렇게 빠르지 않습니다. PP에 운동 7.4을 참조하십시오의 393-394. web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf을
마크 L. 스톤

그것은 로그 오목하지 않습니다. 가우시안은 인수 또는 평균 매개 변수에 대한 로그 오목 형이며 분산도 마찬가지입니다. 척도를 결정하려는 경우 정규 감마 분포를 사용할 수 있습니다 (정규 감마 대신 분산을 사용하여).
Luca Citi

2
정확히 이것입니다. 로그가 더 편리한 방법에 대한 모든 이야기는 훌륭하지만 볼록 함 (또는 관점에 따라 오목 함)은 작업 할 "정확한"것으로 로그 가능성을 실제로 구별하는 것입니다.
Meni Rosenfeld

2
OP에서 로그 오목을 이미 언급했습니다. 그러나 이것은 여전히 ​​"편의"일 뿐이며, 로그 오목에 대한 이론적 근거가 없으며, 어떤 경우에 로그 가능성은 일반적으로 로그 오목하지 않습니다.
ratsalad

1
@ratsalad, 그렇습니다. 맞습니다. 편리합니다. 로그 확률은 확률 함수를 보는 추가 방법이라고 생각합니다. 나는 어느 것이 더 낫다는 것을 확실히 말할 수 없습니다. [ en.wikipedia.org/wiki/… measure)를 보면 일부는 로그 확률 (예 : 로그 확률 차이의 예상 값인 KL 발산), 일부는 직접 확률 ( 예를 들어 KS 거리).
Luca Citi

4

로그 우도의 이론적 중요성은 (적어도) 두 가지 관점에서 볼 수 있습니다 : 점근 적 우도 이론 및 정보 이론.

이것들 중 초기는 (로그인 가능성)의 점근 론 이론입니다. Fisher가 20 세기 우위를 향한 과정에서 최대한의 가능성을 설정 한 후에 정보 이론이 잘 진행되고 있다고 생각합니다.

우도 이론에서 포물선 로그 우도는 추론의 중심이됩니다. Lucien Le Cam은 점근 론에서 2 차 로그 가능성중요성을 설명하는 중요한 역할을했습니다 .

2 차 로그 가능성이있는 경우 MLE에 대한 곡률은 매개 변수를 얼마나 정확하게 추정 할 수 있는지를 정 성적으로 알려주는 것뿐만 아니라 오차가 곡률의 역수와 같은 분산으로 일반적으로 분포되어 있음을 알고 있습니다. 로그 우도가 대략 2 차인 경우 이러한 결과는 대략 또는 무증상으로 유지됩니다.

두 번째 이유는 정보 이론 에서 로그 가능성 (또는 로그 확률)이 두드러 지기 때문입니다. 여기서 정보 내용을 측정하는 데 사용되는 주요 수량입니다.

최대 가능성 추정치에 의해 최소화되는 Kullback-Liebler Divergence 라고하는 엔트로피의 변형이 있습니다 . 특히, 실제 데이터 분포가 경우, 매개 변수 패밀리 에서 에 대한 "가장 가까운"분포 (쿨백-라이 블러 분기에 의해 측정 됨 는 의해 주어집니다 . 는 최대 가능성 추정치입니다.g F ( θ ) F ( θ ) θggf(θ)f(θ^)θ^

마지막으로, 로그 우도는 AICBIC 와 같은 다양한 모델 선택 기준에 사용되는 수량 입니다. 기본적으로 이러한 각 기준은 배수로 추가 매개 변수 / 자유도를 나타 냅니다.lnL^

따라서 유용한 수치 변환이 아니라 로그 가능성은 추론 및 정보 이론과 깊은 관련이 있습니다.


정보 이론의 로그 우도 사용에 대한 언급은 순환 적입니다. 왜 로그 사용합니까? 아마도 같은 이유로, 특히 정보 이론이 통계에 비해 비교적 새로운 분야라고 생각하면 더욱 그렇습니다.
Aksakal

@ Aksakal 예와 아니오. 정보 이론은 통계적 역학과 엔트로피에서 부분적으로 기초를 얻었습니다 : en.wikipedia.org/wiki/Entropy . 볼츠만은 마이크로 스테이트 수의 로그를 사용하여 시스템의 엔트로피를 정의했습니다. 왜 로그인가? 엔트로피 / 정보를 추가하기 때문에 (답이 지적한대로)? 그래서 무엇? 수치 수준에서 선형성 / additivity는 강력한 선형 대 수법을 사용할 수있게합니다.

1
@Aksakal, 그러나 더 근본적인 수준의 중독성에서 엔트로피 / 정보는 마치 질량과 유사한 척도와 같은 것으로 바뀝니다. 통계적으로 독립된 두 시스템을 결합하면 결합 된 시스템의 엔트로피는 각 시스템의 엔트로피의 합입니다. 여기 좋은 설명이 있습니다 : physics.stackexchange.com/questions/240636/…

1
@Bey 열역학적 통계 엔트로피는 실제로 마이크로 스테이트와 고전적인 거시적 열의 볼츠만 분포 (stat mech entropy의 형태는 "선택"이 아님)에서 직접 이어집니다. 볼츠만 분포 자체는 (1) 에너지가 임의의 부가 상수까지만 지정된 물리적 특성과 (2) 동일한 에너지를 가진 모든 미세 상태가 동일한 확률을 갖는다는 기본 통계 시스템 가정의 결과입니다. 따라서 가장 깊은 수준의 열 엔트로피에는 에너지가 부가적이고 로그-프로브에 비례하기 때문에 로그-프로브가 포함됩니다.
ratsalad

2
보시다시피 @ratsalad 감사합니다 ... 보시다시피 간단한 "로그가 더 쉬워집니다"라는 로그 가능성에 대한 설명은 멀리 떨어져있을 수 있습니다. Aksakal이 제공하는 이유 때문에 로그 가능성을 사용하지만 OP가 더 깊은 것을 요구했습니다. 나는 통계와 가능성 이론에 영향을 미친 다른 영역과의 연관성을 보여주는 두 가지 예를 들었다. 나는 점근 적 설명이 더 직접적이라고 생각하지만 엔트로피와 확률은 단순한 숫자의 편의를 넘어 우리가 관심있는 로그 확률을 만드는 방식으로 연결되어 있습니다.

0

TLDR : 미분 연산자는 합계와 선형이지만 곱 u는 곱 규칙을 수행해야하므로 곱보다 합을 도출하는 것이 훨씬 쉽습니다. 선형 복잡성 대 고차 다항식 복잡성


3
이것이 "편리하고 실용적"이라는 질문의 의미입니다. 분석이 로그 우도에 초점을 두는 이유는 유일하거나 주된 이유와는 거리가 멀다. 예를 들어, Fisher 정보에 대한 표현 이 로그 가능성보다는 가능성 측면에서 어떤 모습 일지 고려하십시오 .
whuber

네 물론 이죠. 나는 그가 그것을 찾기 위해 "더 간결한"이라고 말했을 때, 나는 우리가 로그 변환을 적용한 후에 그것을 찾기가 더 쉽기 때문에 그가 이것의 반대를 의미한다고 생각했습니다.
Charlie Tian
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.