내가 충분하다고 공부하면서 나는 당신의 질문에 부딪 혔습니다. 왜냐하면 내가 수집 한 것에서 나는 이것이 생각해 낸 것입니다 (내가 실수를 한 경우 어떻게 생각하는지 알려주세요).
하자 평균이 포아송 분포에서 무작위 표본이 될 θ >X1,…,Xn .θ>0
우리는 알고 에 대한 충분한 통계이다 θ 의 조건부 분포하기 때문에, X 1 , ... , X는 N 주어진 T ( X는 ) 무료입니다 θ 즉,하지 않습니다 의지하다T(X)=∑ni=1XiθX1,…,XnT(X)θ .θ
이제, 통계 알고 그 X 1 , ... , X n은 난을 . 나는 . D ~ P O I S S O N ( 4 ) 및 생성 N = 400 이 분포로부터 랜덤 값 :A X1,…,Xn∼i.i.dPoisson(4)n=400
n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)
freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)
통계 학자 가 만든 가치 에 대해 그는 합계를 취하여 통계 학자 B 에게 다음을 묻습니다 .AB
"이 샘플 값 은 Poisson 분포에서 가져 왔습니다. ∑ n i = 1 x i = y = 4068 이라는 것을 알고 있다면 ,이 분포에 대해 무엇을 알 수 있습니까?"x1,…,xn∑ni=1xi=y=4068
따라서 통계 학자 B 가 θ 에 대해 아무 말도하기에 (및 표본이 푸 아송 분포에서 나온 사실) 만 아는 것만 아는 것입니다 . 우리는 이것이 충분한 통계량이라는 것을 알고 있기 때문에 답이 "예"라는 것을 알고 있습니다.∑ni=1xi=y=4068Bθ
이것의 의미에 대한 직관을 얻으려면 다음을 수행하십시오 (Hogg & Mckean & Craig의 "수학 통계 소개", 7 판, 연습 7.1.9) :
" 자신이 호출하는 일부 가짜 관측을 만들기로 결정 Z 1 , Z 2 , ... , Z N (자신이 알고있는대로 그들은 아마도 원본과 동일하지 않습니다 X를 다음과 같이 -values을). 그는 노트이 독립적 인 푸 아송의 조건부 확률 랜덤 변수 Z 1 , Z 2 ... , Z는 N 으로 동일하고 , Z 1 , Z 2 , ... , Z N , 주어진 Σ의 Z가 나는 = Y를 인Bz1,z2,…,znxZ1,Z2…,Znz1,z2,…,zn∑zi=y
θz1e−θz1!θz2e−θz2!⋯θzne−θzn!nθye−nθy!=y!z1!z2!⋯zn!(1n)z1(1n)z2⋯(1n)zn
Y=∑Zinθyn1/nByz1,…,zn . "
이것이 운동 상태입니다. 정확히 그렇게하자 :
# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)
그리고 무엇을 보자 지 (또한 Poisson (4)의 실제 밀도를 플로팅하고 있습니다. k = 0 , 1 , … , 13 -13을 초과하는 것은 실질적으로 0입니다-비교를 위해) :
# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"),
col = c("black","green"),pch=c(1,4))
그래서 아무것도 몰라 θ 충분한 통계 만 아는 것 와이= ∑ X나는 우리는 Poisson (4) 분포와 매우 유사한 "배포"를 설명 할 수있었습니다. 엔 증가하면 두 곡선이 더 비슷해집니다).
이제 비교 엑스 과 지| 와이:
plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))
우리는 그것들이 (예상대로) 꽤 비슷하다는 것을 알았습니다.
따라서 "통계 결정을 내리기 위해 개별 랜덤 변수를 무시할 수 있습니다. 엑스나는 결정은 전적으로 와이= X1+ X2+ ⋯ + X엔"(Ash, R."통계 추론 : 간결한 과정 ", 59 페이지).