충분한 통계량에 모수 추정값을 계산하는 데 필요한 모든 정보가 포함되는 이유는 무엇입니까?


16

방금 통계를 공부하기 시작했고 충분하다고 직관적으로 이해할 수 없습니다. 더 정확하게 말하면 다음 두 단락이 동일하다는 것을 보여주는 방법을 이해할 수 없습니다.

대략, 알 수없는 모수 θ로 조절 된 독립적으로 동일하게 분포 된 데이터의 세트 X가 주어지면, 충분한 통계량은 그 값에 모수의 추정치를 계산하는 데 필요한 모든 정보가 포함 된 함수 T (X)입니다.

통계 T (X)가 주어진 경우, 데이터 X의 조건부 확률 분포가 파라미터 θ에 의존하지 않는 경우 통계 T (X)는 기본 파라미터 θ에 충분하다.

(나는 충분한 통계 에서 인용했다 )

두 번째 진술을 이해하고 주어진 통계가 충분한 지 여부를 보여주기 위해 인수 분해 이론을 사용할 수 있지만, 그러한 속성이있는 통계에 "모든 계산에 필요한 모든 정보가 포함 된 속성이있는 이유를 이해할 수 없습니다" 모수의 추정치 ". 어쨌든 내 이해를 개선하는 데 도움이되는 공식적인 증거를 찾고 있지 않습니다. 두 진술이 왜 같은지에 대한 직관적 인 설명을 얻고 싶습니다.

요컨대 내 질문은 다음과 같습니다. 왜 두 진술이 동등한가? 누군가가 그들의 동등성에 대해 직관적 인 설명을 제공 할 수 있습니까?


1
직관적 인 주요 아이디어는 샘플에서 필요한 모든 정보를 요약하는 통계를 찾을 수 있기 때문에 전체 샘플을 볼 필요가 없다는 것입니다. 예를 들어 이항 분포를 생각해보십시오. 모형에 대해 알아야 할 것은 성공의 합계입니다. 난 단지 당신을 말한다면 당신은 가치없는 잃게 아무것도 할 대신 당신에게 샘플 값의 전체 집합 표시로, X = { 1 , 0 , 0 , 1 , 0 , 1 ,을 . . . } . inxi=cx={1,0,0,1,0,1,...}
뮤겐

나는 충분한 통계가 필요한 이유와 성공의 합이 Bernoulli 프로세스에서 p에 대한 충분한 통계임을 보여주는 방법을 이해합니다. 내가 이해하지 못하는 것은 두 번째 단락에 설명 된 것과 같은 통계에 모수의 추정치를 계산하는 데 필요한 모든 정보가 포함 된 이유입니다.
gcoll

3
엄밀히 말하면, 첫 번째 인용문은 잘못되었습니다. 충분한 통계량으로 만 계산할 수없는 전체 데이터 세트에서 계산할 수있는 많은 추정값이 있습니다. 그것이 인용이 "거의"시작하는 이유 중 하나입니다. 또 다른 이유는 "정보"에 대한 양적 또는 엄격한 정의를 제공하지 않기 때문입니다. 그러나 앞 단락에서 훨씬 더 정확하지만 직관적 인 특성화가 이루어 졌으므로 적절한 맥락
whuber

1
그것은 최대 가능성과 관련이 있으며 그것은 본질적으로 최대 가능성에 필요한 정보입니다
Kamster

1
whuber와 @Kamster의 의견에 따라 아마도 더 잘 이해할 것입니다. 충분한 통계량에 모수의 추정치를 계산하는 데 필요한 모든 정보가 포함되어 있다고 말할 때 실제로 최대 우도 추정값 (모든 충분한 통계량의 함수)을 계산하는 것으로 충분하다는 것을 의미합니까? 사실은 문제가 whuber가 제안한 것처럼 "정보"의 (비) 정의와 관련이 있으며 내 질문에 대한 답변입니다.
gcoll

답변:


3

@whuber와 @Kamster의 의견에 따라 아마도 더 잘 이해할 것입니다. 충분한 통계량에 모수의 추정치를 계산하는 데 필요한 모든 정보가 포함되어 있다고 말할 때 실제로 의미하는 것은 최대 우도 추정기 (모든 통계의 함수)를 계산하는 것으로 충분하다는 것입니다.

나는 내 자신의 질문에 대답하고 있으므로 답을 100 % 확신하지 못한다면 피드백을 얻을 때까지 올바른 것으로 표시하지 않습니다. 내가 틀렸다 / 부정확 한 / 등이 있다고 생각되면 의견을 적고 투표하십시오.

(이것이 SE 에티켓과 호환되지 않는지 알려주세요. 이것이 나의 첫 번째 질문이므로 규칙을 위반하면 당신의 자비를 부탁드립니다)


1

내가 충분하다고 공부하면서 나는 당신의 질문에 부딪 혔습니다. 왜냐하면 내가 수집 한 것에서 나는 이것이 생각해 낸 것입니다 (내가 실수를 한 경우 어떻게 생각하는지 알려주세요).

하자 평균이 포아송 분포에서 무작위 표본이 될 θ >X1,,Xn .θ>0

우리는 알고 에 대한 충분한 통계이다 θ 의 조건부 분포하기 때문에, X 1 , ... , X는 N 주어진 T ( X는 ) 무료입니다 θ 즉,하지 않습니다 의지하다T(X)=i=1nXiθX1,,XnT(X)θ .θ

이제, 통계 알고X 1 , ... , X n은 난을 . 나는 . D ~ P O I S S O N ( 4 ) 및 생성 N = 400 이 분포로부터 랜덤 값 :A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

통계 학자 가 만든 가치 에 대해 그는 합계를 취하여 통계 학자 B 에게 다음을 묻습니다 .AB

"이 샘플 값 은 Poisson 분포에서 가져 왔습니다. n i = 1 x i = y = 4068 이라는 것을 알고 있다면 ,이 분포에 대해 무엇을 알 수 있습니까?"x1,,xni=1nxi=y=4068

따라서 통계 학자 Bθ 에 대해 아무 말도하기에 (및 표본이 푸 아송 분포에서 나온 사실) 만 아는 것만 아는 것입니다 . 우리는 이것이 충분한 통계량이라는 것을 알고 있기 때문에 답이 "예"라는 것을 알고 있습니다.i=1nxi=y=4068Bθ

이것의 의미에 대한 직관을 얻으려면 다음을 수행하십시오 (Hogg & Mckean & Craig의 "수학 통계 소개", 7 판, 연습 7.1.9) :

" 자신이 호출하는 일부 가짜 관측을 만들기로 결정 Z 1 , Z 2 , ... , Z N (자신이 알고있는대로 그들은 아마도 원본과 동일하지 않습니다 X를 다음과 같이 -values을). 그는 노트이 독립적 인 푸 아송의 조건부 확률 랜덤 변수 Z 1 , Z 2 ... , Z는 N 으로 동일하고 , Z 1 , Z 2 , ... , Z N , 주어진 Σ의 Z가 나는 = Y를Bz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

Y=Zinθyn1/nByz1,,zn . "

이것이 운동 상태입니다. 정확히 그렇게하자 :

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

그리고 무엇을 보자 (또한 Poisson (4)의 실제 밀도를 플로팅하고 있습니다. 케이=0,1,,13 -13을 초과하는 것은 실질적으로 0입니다-비교를 위해) :

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

enter image description here

그래서 아무것도 몰라 θ 충분한 통계 만 아는 것 와이=엑스나는 우리는 Poisson (4) 분포와 매우 유사한 "배포"를 설명 할 수있었습니다. 증가하면 두 곡선이 더 비슷해집니다).

이제 비교 엑스|와이:

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

enter image description here

우리는 그것들이 (예상대로) 꽤 비슷하다는 것을 알았습니다.

따라서 "통계 결정을 내리기 위해 개별 랜덤 변수를 무시할 수 있습니다. 엑스나는 결정은 전적으로 와이=엑스1+엑스2++엑스"(Ash, R."통계 추론 : 간결한 과정 ", 59 페이지).


0

도움이 될만한 다른 관점을 제시하겠습니다. 이것은 또한 정 성적이지만 Markov 속성이라고 알려진 Information Theory에서 특히 중요한 엄격한 버전이 있습니다.

처음에는 데이터 (임의 변수에서 유래, X라고 함)와 매개 변수, θ(또 다른 rv는 추정기에 대해 이야기하고 있기 때문에 암시 적으로 가정됩니다). 이 두 가지는 의존적이라고 가정합니다 (그렇지 않으면 서로를 추정하려고 시도 할 필요가 없습니다). 이제 세 번째 물체 인 게임은 Sufficient Statistic, T에 들어갑니다θ 실제로 우리가 T를 알고 있다면 (즉, T로 조절됨) X는 추가 정보를 제공하지 않습니다. 즉, X와 θ독립적입니다. 다시 말해, X에 대한 지식은 추정에 대한 한 T에 대한 지식과 동등합니다.θ걱정이다. 확률은 모든 불확실성이 포착되는 곳이므로 (조건부) 확률이 독립적 일 때 (예 : 조건부 밀도 인수 화) "임의의 추정"입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.