한계 수만을 고려한 관절 분포의 최대 우도 추정


12

x , y { 1 , , K } 와 함께 두 개의 범주 형 변수 X , Y 의 공동 분포라고 합시다 . 이 분포에서 n 개의 표본을 추출 했다고 가정 하지만 j = 1 , , K에 대한 한계 계수 만 제공됩니다 .px,yX,Yx,y{1,,K}nj=1,,K

Sj=i=1nδ(Xi=l),Tj=i=1nδ(Yi=j),

최대 우도 추정이란 , 주어진 S의 J , T의 J는 ? 이것이 알려져 있습니까? 계산 가능합니까? ML 외에이 문제에 대한 다른 합리적인 접근 방법이 있습니까?px,ySj,Tj


2
마진에는 실제로 관절 분포에 대한 정보가 포함되어 있지 않습니다 (실제로 이것은 쿨라 포인트입니다). * 또는 적어도 거의 – 최소한 내부 정보는 발생하는 마진을 초과 할 수 없기 때문에 마진에 최소한 일부 정보가 포함되어 있습니다. 특정 공동 분포를 염두에두고 있습니까? 왜 maximum-entropy태그 를 사용 했 습니까? 최대 엔트로피 솔루션을 사용하고 있습니까?
Glen_b -Reinstate 모니카

나는 copulas에 익숙하지 않습니다. 그들은 범주적인 사건을지지합니까? 그것은 같은 마진을 가진 모든 공동 분포가 같은 가능성을 가질 것이라는 것을 의미합니까? (나는 그것이 적절하다고 생각했기 때문에 최대 엔트로피를 태그했다.)
RS

우리는 아직 특정 분포 모델을 가지고 있지 않기 때문에 실제로 를 계산할 위치에 있지 않습니다 . 여기에는 수많은 가능성이 있습니다. Copulas는 순서가 지정된 범주 형 사례 (독특하지 않은 경우)에 대해 존재하지만이를 높이는 목표는 한계가 일반적으로 그다지 유익하지 않은 이유에 대한 동기를 부여하는 것이 었습니다. 피셔-어윈의 정확한 테스트 인 경우, 피셔-카운트 수 사건과 관련하여 Fisher는 마진을 조인트에 대한 정보가없는 것으로 취급했습니다. 최대 엔트로피를 원한다면 아마도 최대 엔트로피 솔루션을 얻을 수 있지만, 그것이 매우 유익하다는 것을 모르겠습니다 ...P(x|θ)
Glen_b -Reinstate Monica

(ctd) ... 구조. ME 또는 ML 사례에서, 나는 이변 량 다항식, 이변 량 초 지오메트리 또는 더 많은 구조를 가진 어떤 모델이든 먼저 어떤 종류의 모델이 필요하다고 생각합니다. 저자가 답변에 참조를 넣는 이 질문을 참조하십시오 . 도움이 될 수 있습니다.
Glen_b-복지 주 모니카

1
나는 일반적인 이변 량 다항 분포를 의미했습니다. 문제는 분포의 합이 주어지고 공동 분포의 표본을 보는 경우에 대해 말합니다. 여기에 샘플의 합이 있습니다. ML 사례에서 문제가 잘 정의되어 있다고 생각합니다 (솔루션은 독특하지는 않지만 모르겠습니다).
RS

답변:


4

이러한 종류의 문제는 Dobra et al (2006) 의 논문 "고정 한계 총계 를 갖는 다 방향 우연성 테이블의 데이터 증강" 에서 연구되었다 . 하자 모델의 파라미터를 나타낸다하게 해당 각 계수의 관측 정수 테이블을 나타내는 ( X , Y ) 쌍과하자 C ( S , T ) 한계 카운트 동일 정수 테이블들의 집합 ( S , T ) . 그런 다음 한계 카운트 ( S , T ) 를 관찰 할 확률은 다음과 같습니다. p (θn(x,y)C(S,T)(S,T)(S,T) 여기서 p ( n | θ ) 는 다항식 샘플링 분포입니다. 이는 ML에 대한 우도 함수를 정의하지만 작은 문제를 제외하고 직접 평가는 불가능합니다. 그들이 권장하는 접근 방식은 MCMC이며 n θ 를 번갈아 업데이트합니다.

p(S,T|θ)=nC(S,T)p(n|θ)
p(n|θ)nθ제안 배포에서 샘플링하고 Metropolis-Hastings 수락 비율에 따라 변경을 수락합니다. 이것은 Monte Carlo EM을 사용하여 이상의 대략적인 최대 값을 찾도록 조정될 수 있습니다 . θ

다른 접근법은 변형 방법을 사용하여 대한 합계를 근사화합니다 . 한계 제약은 인자 그래프로 인코딩 될 수 있고 θ에 대한 추론은 기대 전파를 사용하여 수행 될 수있다.nθ

이 문제가 어려운 이유와 사소한 해결책을 인정하지 않는 이유를 보려면 . 촬영 S를 로우 합과 같은 T 열의 합으로서 카운트 테이블의 두 가지가있다 : [ 0 1 2 0 ]S=(1,2),T=(2,1)ST 따라서, 우도 함수이며 , p는(S,T | θ)=3 , P (12) , P 2 (21) +(6) P 11 (P) (21) , P (22) 이 문제에 대한 MLE 인 (P)의 X , Y = [ 0 1 / 3 2 / 3 0 ]

[0120][1011]
p(S,T|θ)=3p12p212+6p11p21p22
p^x,y=[01/32/30]
이것은 왼쪽의 표를 가정하는 것에 해당합니다. 대조적으로, 사용자가 독립을 가정함으로써 얻을 것이라고 예상은 어느 가능성 값이 작습니다.
qx,y=[1/32/3][2/31/3]=[2/91/94/92/9]

분석 솔루션을 얻을 수 없습니까?
Ben Kuhn

θθ={θx,y}(x,y)

분석 솔루션이 있다고 생각하지 않습니다. 이것을 설명하기 위해 예제를 추가했습니다.
Tom Minka

감사. 아마도 무증상입니까? 그런 다음 여백 총계에 대한 조정은 (정규화 후) 여백 분포에 대한 조정과 동일하며 관찰되지 않은 각 정수 테이블의 로그 가능성은 엔트로피에 비례합니다. 아마도 AEP로 뭔가?
RS

1

@Glen_b가 지적했듯이 이것은 충분하지 않습니다. 가능성을 완전히 지정할 수 없다면 최대 가능성을 사용할 수 있다고 생각하지 않습니다.

독립성을 기꺼이 생각한다면 문제는 매우 간단합니다 (실수로, 해결책은 제안 된 최대 엔트로피 솔루션이라고 생각합니다). 문제에 추가 구조를 기꺼이 적용하지 않고 여전히 세포 값에 대한 근사치를 원한다면 Fréchet-Hoeffding copula bounds를 사용할 수 있습니다 . 추가 가정이 없으면 더 이상 갈 수 없다고 생각합니다.


이것에 대한 가능성은 다항식 일 수 있습니다. 왜 충분하지 않습니까?
RS

내가 이해하는 것처럼, 가능성은 데이터가 주어진 매개 변수의 함수입니다. 여기에는 각 셀에 대한 값이없고 한계 값 만 있으므로 계산할 수있는 매개 변수의 단일 기능은 최대화 할 수 없습니다. 일반적으로 여백과 호환되는 많은 셀 구성이 있으며 각각 다른 가능성을 제공합니다.
F. Tusell

1
pp

1

px,ypx=ypx,ypy=xpx,y

잘못된 것들은 다음과 같습니다.

px,yX,YS1=S2=T1=T2=10

p=(120012),p=(14141414)

pxpy


p=(abcd)0<adp=(0b+ac+ada)


X,Y

H(p)=x,ypx,ylogpx,yxpx,y=pyypx,y=pxg(p)=0gx(p)=ypx,ypxgy(p)=xpx,ypy

H(p)=kXYλkgk(p)

gk

1logpx,y=λx+λypx,y=e1λxλy

xpx,y=pyypx,y=pxe1/2λx=pxe1/2λy=py

px,y=pxpy.

S1=S2=T1=T2=10p[[10,0],[0,10]]220p0a10Pr[[a,10a],[10a,a]]10420

확률을 잘못 계산했습니다. 예를 들어, 이항 계수를 포함하는 것을 잊었습니다. 하지만 당신은 두 행렬이 서로 다른 줄 그 권리에있어 공동 가 한계 카운트 같은 한계 분포를 제공하더라도 한계 카운트의 분포를. (이봐!) 나는 이것에 대해 더 생각할 것이다.
Ben Kuhn
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.