“우연성은 비례의 배수 상수까지만 정의된다”는 것은 실제로 무엇을 의미 하는가?


19

저자가 최대 가능성 추정에 대한 토론에서 베이 즈 정리에 이르는 논문을 읽고 있습니다.

우연한 예로, 이항 분포로 시작합니다.

p(x|n,θ)=(nx)θx(1θ)nx

그런 다음 양쪽에 기록하십시오

(θ|x,n)=xln(θ)+(nx)ln(1θ)

그 이론적 근거로

"우도는 비례의 곱셈 상수 (또는 로그 우도에 대한 가산 상수)까지만 정의되므로 이항 계수를 제거하고 우도 대신 로그 우도를 작성하여 크기를 조정할 수 있습니다."

수학은 의미가 있지만 "가능성은 곱하기 비례 상수로만 정의됩니다"라는 의미와 이항 계수를 떨어 뜨리고 p(x|n,θ) 에서 (θ|x,n) .

다른 질문들 ( 여기여기 ) 에서도 비슷한 용어가 등장 했지만, 실제로 정의 된 가능성이나 정보를 곱셈 상수 수단으로 가져올 가능성은 아직 명확하지 않습니다. 평신도의 관점에서 이것을 설명 할 수 있습니까?

답변:


18

요점은 때때로 (동일한 데이터에 대한) 다른 모델이 곱셈 상수에 따라 다른 가능성 함수로 이어질 수 있지만 정보 내용은 분명히 동일해야한다는 것입니다. 예를 들면 :

독립적 인 Bernoulli 실험을 모델링 하여 각각 (확률) 모수 가진 Bernoulli 분포를 갖는 데이터 유도합니다 . 이것은 우도 함수 이항 분포 변수 데이터를 요약 할 수 있습니다 이항 분포를 갖는, 우도 함수 는 미지의 모수 의 함수로서 이전 우도 함수에 비례합니다 . 두 가능성 함수에는 동일한 정보가 명확하게 포함되어 있으며 동일한 추론으로 이어져야합니다!nX1,,Xnp

i=1npxi(1p)1xi
와이=엑스1+엑스2++엑스
(와이)와이(1)와이

그리고 실제로, 정의상 그것들은 동일한 우도 함수로 간주됩니다.

또 다른 관점 : 베이지안 정리에 필요한대로 우 함수 함수가 베이 즈 정리에 사용될 때, 그러한 곱셈 상수는 단순히 취소된다는 것을 관찰하십시오! 따라서 베이지안 추론과는 관련이 없습니다. 마찬가지로 최적 가설 검정 (Neyman-Pearson lemma)에 사용 된 것처럼 우도 비율을 계산할 때 취소되고 최대 우도 추정값에 영향을 미치지 않습니다. 따라서 우리는 빈번한 추론에서 그 역할을 할 수 없다는 것을 알 수 있습니다.

우리는 또 다른 관점에서 논쟁 할 수 있습니다. 위의 Bernoulli 확률 함수 (이하 "밀도"라는 용어를 사용함)는 실제로 계수 측정, 즉 음이 아닌 정수에 대한 질량이 음이 아닌 각 정수에 대한 계수와 관련하여 밀도입니다. 그러나 우리는 다른 지배적 인 측정과 관련하여 밀도를 정의 할 수있었습니다. 이 예에서는 인공적인 것처럼 보이지만 더 큰 공간 (기능 공간)에서는 이것이 기본입니다! 우리는 예시의 목적을 위해, 특정 기하 분포 서면 사용하자 와 , , 및 곧. 그런 다음 대한 베르누이 분포의 밀도λλ(0)=1/2λ(1)=1/4λ(2)=1/8λ F λ ( X ) = P (X) ( 1 - P ) 1 - X2 X + 1 P ( X를 = x ) = f λ ( x ) λλ 로 주어집니다. 이는 이 새롭고 지배적 인 측정으로 우도 함수는 (위의 표기법으로) 는 추가 요소 유의하십시오 . 따라서 우도 함수의 정의에 사용 된 지배 측정 값을 변경하면 알 수없는 모수 에 의존하지 않는 새로운 곱셈 상수가 발생합니다.

에프λ(엑스)=엑스(1)1엑스2엑스+1
(엑스=엑스)=에프λ(엑스)λ(엑스)
나는=1엑스나는(1)1엑스나는2엑스나는+1=와이(1)와이2와이+
2와이+, 분명히 관련이 없습니다. 그것이 곱셈 상수가 어떻게 관련이 없는지를 보는 또 다른 방법입니다. 이 주장은 Radon-Nikodym 파생 상품을 사용하여 일반화 할 수 있습니다 (위의 주장은 예입니다).


"정보 내용은 분명히 같아야합니다"이것은 가능성 원칙을 믿는 경우에만 해당됩니다!
jsk

그렇습니다. 그러나 나는 이것이 베이지안 원리를 따르는 방법을 보여주었습니다.
kjetil b halvorsen 12

@kjetilbhalvorsen 신중한 답변 감사합니다! 내가 아직도 혼란스러워하는 한 가지는 베르누이 분포 가능성에 이항 계수가 포함되지 않은 이유입니다. 당신의 대답은 왜 그것이 중요하지 않은지를 분명하게하지만, 왜 그것이 가능성에서 제외되었는지 이해하지 못합니다.
jvans

@jvans : 이항 계수가 알 수없는 모수에 의존하지 않기 때문에 우도 함수의 모양에 영향을 줄 수 없습니다
kjetil b halvorsen

12

기본적으로 PDF의 상대적 값만 중요하다는 것을 의미합니다. 예를 들어 표준 표준 (가우시안) PDF는 . 책에서 사용할 수 있다고 말합니다. 대신 스케일을 신경 쓰지 않으므로 입니다.g(X)=E-(X)2/2C=1에프(엑스)=12π이자형엑스2/2(엑스)=이자형엑스2/2=12π

가능성 함수를 최대화하고 와 최대 값 이 같기 때문에 이런 일이 발생합니다 . 따라서 최대 는 . 그래서 그들은 규모에 신경 쓰지 않습니다.g ( X ) E - (X) 2 / 2 F ( X )(엑스)(엑스)이자형엑스2/2에프(엑스)


6

나는 인용의 의미를 설명 할 수는 없지만위한 최대 우도 추정, 우리가 우도 함수의 최대 찾아 선택 여부를 중요하지 않습니다 (의 함수로 간주 나 최대 여기서 상수로 우리가 최대 값에 관심이 있기 때문이다. 이 아니라 값 이 최대 값이 발생하고 및 모두 동일한 에서 최대 값을 얻습니다. θ a L ( x ; θ ) a L ( x ; θ )(엑스;θ)θ(엑스;θ)(엑스;θ) L ( X ; θ ) L ( X ; θ ) θ ML g ( ) L ( X ; θ ) g ( L ( X ; θ ) ) θ ML LN ( ) LN ( ) + LN ( L ( x ; θ ) ln ( L (θML(엑스;θ)(엑스;θ)θML. 따라서 곱하기 상수는 무시할 수 있습니다. 마찬가지로 우도 함수 모든 모노톤 함수 (로그와 같은 를 고려하여 의 최대 값을 결정할 수 있습니다 이며 의 값을 여기에서 유추하십시오 . 로그의 경우, 곱셈 상수 는 가산 상수 되고 최대 값의 위치를 ​​찾는 과정에서 무시할 수 있습니다. 는 와 같은 시점에서 최대화됩니다 .()(엑스;θ)((엑스;θ))θMLln()ln()+ln((엑스;θ)ln((엑스;θ)

최대 선삭 사후 확률 (MAP) 추정, 확률 변수의 실현으로 간주 으로 선험적 밀도 함수 , 데이터는 의 실현으로 간주 확률 변수 , 우도 함수의 값으로 간주되는 조건 밀도 의 조건으로 ; 상기 조건부 밀도 함수는 에서 평가된다 . 그만큼Θ F Θ ( θ ) X X F X | Θ ( X | Θ = θ ) X Θ = θ X Θ F Θ | X ( θ | X ) = F X | Θ ( X | Θ = θ ) F Θ ( θ )θΘ에프Θ(θ)엑스엑스에프엑스Θ(엑스Θ=θ)엑스Θ=θ엑스 의 후부 밀도 는 여기서 분자를 관절 밀도 로 인식합니다 및 추정되는 모수. 포인트 가 도달 최대 값의 MAP 추정치이다 같은 인수 등을 이용하고, 단락에서 우리 는 의 오른쪽에있는 을 무시할 수 있음을 알 수 있습니다Θ fX,Θ(x,θ)θMAPfΘX(θx)θ[fX(x)]-1(1)fXΘ(xΘ=θ)fΘ(θ)

(1)에프Θ엑스(θ엑스)=에프엑스Θ(엑스Θ=θ)에프Θ(θ)에프엑스(엑스)
에프엑스,Θ(엑스,θ)θ지도에프Θ엑스(θ엑스)θ[에프엑스(엑스)]1(1) 와 에서 곱셈 상수를 무시할 수있는 것처럼 곱셈 상수로 사용 합니다 . 마찬가지로 로그 우도를 사용하는 경우 추가 상수를 무시할 수 있습니다.에프엑스Θ(엑스Θ=θ)에프Θ(θ)

생각이 라인은 또한 베이 즈를 통해 수행 할 수 있습니다 : 당신이 넣으면 또는 베이 즈에 '정리 문제는없는 후방이 동일하므로 삭제됩니다. a L a
kjetil b halvorsen

5

평신도의 관점에서, 당신은 종종 최대 가능성을 찾고, 와 는 동일한 임계점을 공유합니다.(K)의 F ( X )에프(엑스)kf(x)


3
와 마찬가지입니다. 그러나 그것들은 동등한 우도 함수가 아닙니다F ( X ) + (2)에프(엑스)에프(엑스)+2
Henry

Alecos Papadopoulos가 그의 답변에서 다음과 같이 썼을 때, "우도는 공동 확률 밀도 함수"입니다. 때문에 무작위 샘플에 대한 IID 가정의, 그 관절 기능은입니다 제품 때문에 곱셈 요인이 가수는하지 않습니다, 발생합니까, 간단한 밀도 함수의.
Sergio

1
데이터가 독립적 인 경우에만 관절 기능이 그러한 제품입니다. 그러나 MLE는 종속 변수로 확장되므로 제품 인수는 확실하지 않습니다.
whuber

1

argmax

상한에 따라 가능성을 최대화해야하는 특별한 상황이있을 수 있습니다. 그런 다음 값을 계산할 때 상수를 포함하도록 "기억"해야합니다.

또한 공정에서 우도 값을 사용하여 중첩되지 않은 모델에 대해 모형 선택 테스트를 수행 할 수 있습니다. 모형이 중첩되지 않기 때문에 두 가능성에 서로 다른 상수가 있습니다.

이 외에도 문장

"우도는 비례의 곱셈 상수 (또는 로그 우도에 대한 추가 상수)까지만 정의되기 때문에"

잘못 될 가능성이 있기 때문에, 결합 확률 밀도 함수 그냥 "어떤"목적 함수를 최대화 할 수 없다.


3
θθ

3
L(θx)=에프(엑스θ).
111

1
@heropup 필자는 이미 매개 변수 공간을 통일하기 위해 반드시 통합 할 필요는 없으므로 즉시 "매개 변수의 함수"로 볼 때 "밀도 함수"로 간주 될 수 없다고 썼습니다.
Alecos Papadopoulos

1
예, 알아요 필자의 요점은 "우도 함수는 밀도 함수이며 매개 변수의 함수로 볼 수있다"라는 문구 자체가 혼란 스럽다는 것이다. "우도 함수는 고정 된 샘플에 대한 매개 변수의 함수이며 샘플 공간의 조인트 밀도와 동등 (또는 비례)합니다."라고 말하는 것이 더 정확합니다.
heropup

1
(엑스θ)에프(θ)에프(θ)
Dilip Sarwate
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.