GLM에 대한 정규화 변환 도출


15

방법 인 정규화는 지수 가족 변환 유래? A ( ) = d uV 1 / 3 ( μ )A()=duV1/3(μ)

더 구체적으로 : 나는 3 페이지의 Taylor 확장 스케치를 따르려고 노력했지만 여기에 슬라이드 1 있지만 몇 가지 질문이 있습니다. 함께 엑스X 지수 가족, 변환 h ( X )h(X)κ 나는κi 의미하는데 I t의 시간ith cumulant 상기 슬라이드 주장 : κ 3 ( h ( ˉ X ) ) h ( μ ) 3 κ 3 ( ˉ X )N 2 +3시간''(μ)2시간''(μ)σ4N +O(N-3),

κ3(h(X¯))h(μ)3κ3(X¯)N2+3h(μ)2h′′(μ)σ4N+O(N3),
간단히 찾아야합니다.h ( X )h(X) 위의 값이 0이되도록 h (X) 됩니다.
  1. 첫 번째 질문은 산술에 관한 것입니다. 테일러 확장에는 다른 계수가 있으며, 많은 용어가 빠졌음을 정당화 할 수 없습니다.

    h 이후  ( x )h ( μ ) + h ' ( μ ) ( x μ ) + h ' ' ( x )2 (X-μ)2, 우리는이 :시간( ˉ X )-시간(U)h ( u ) ) ( ˉ Xμ ) + h ( x )2(ˉXμ)2E(h(ˉX)h(u))3h(μ)3E(ˉXμ)3+32h(μ)2h(μ)E(ˉXμ)4+34h(μ)h(μ)2E(ˉXμ)5+18h(μ)3E(ˉXμ)6.

    Since h(x)h(X¯)h(u)E(h(X¯)h(u))3h(μ)+h(μ)(xμ)+h′′(x)2(xμ)2, we have:h(u))(X¯μ)+h′′(x)2(X¯μ)2h(μ)3E(X¯μ)3+32h(μ)2h′′(μ)E(X¯μ)4+34h(μ)h′′(μ)2E(X¯μ)5+18h′′(μ)3E(X¯μ)6.

    중심 모멘트를 누적 등가물로 대체하여 비슷한 것을 얻을 수는 있지만 여전히 합산되지는 않습니다.

  2. 두 번째 질문 : 왜 우리가 실제로 관심 을 가지는 X 대신 \ bar {X}로 분석을 시작 합니까?ˉXX¯XX


당신은 당신이 \ mu 를 의미하는 몇 번 u 를 가지고있는 것 같습니다uuμμ
Glen_b-복지국 모니카

답변:


2

연결하는 슬라이드는 다소 혼란스럽고 단계를 생략하고 오타를 만들지 만 실제로는 정확합니다. 질문 2에 먼저 답한 다음 1에 답한 다음 마지막으로 대칭 변환A ( u ) = u 1[ V ( θ ) ] 1 / 3 DθA(u)=u1[V(θ)]1/3dθ .

질문 2. 우리는 를 iid 랜덤 변수 의 크기 의 표본 평균으로 분석하고 있습니다. 과학에서 항상 같은 분포를 샘플링하고 평균을 취하기 때문에 이것은 중요한 양입니다. 가 실제 평균 얼마나 가까운 지 알고 싶습니다 . 중앙 한계 정리 (Central Limit Theorem)는 그것이 에 로 수렴한다고 말하지만 의 분산과 왜도를 알고 싶습니다 .ˉ XX¯ NNX1,. . . ,XNX1,...,XN ˉ XX¯ μμμμNN ˉ XX¯

질문 1. Taylor 계열 근사값은 정확하지 않지만 슬라이드와 동일한 결론을 얻으려면 대 및 거듭 제곱을 추적하는 데주의해야합니다 . 의 정의 와 중심 모멘트 부터 시작하여 의 공식을 도출해 .ˉ XX¯ XiXiNN ˉ XX¯ XiXiκ3(h( ˉ X ))κ3(h(X¯))

ˉ X =1NNi=1XiX¯=1NNi=1Xi

E[Xi]=μE[Xi]=μ

V(Xi)=E[(Xiμ)2]=σ2V(Xi)=E[(Xiμ)2]=σ2

κ3(Xi)=E[(Xiμ)3]κ3(Xi)=E[(Xiμ)3]

이제 의 중심 순간 :ˉXX¯

E[ˉX]=1NNi=1E[Xi]=1N(Nμ)=μE[X¯]=1NNi=1E[Xi]=1N(Nμ)=μ

V(ˉX)=E[(ˉXμ)2]=E[((1NNi=1Xi)μ)2]=E[(1NNi=1(Xiμ))2]=1N2(NE[(Xiμ)2]+N(N1)E[Xiμ]E[Xjμ])=1Nσ2V(X¯)=E[(X¯μ)2]=E[((1Ni=1NXi)μ)2]=E[(1Ni=1N(Xiμ))2]=1N2(NE[(Xiμ)2]+N(N1)E[Xiμ]E[Xjμ])=1Nσ2

마지막 단계는 이고 입니다. 이것은 의 가장 쉬운 파생은 아니지만 및 를 찾으려면 동일한 프로세스입니다. , 여기서 우리는 합의 곱을 나누고 다른 변수의 거듭 제곱으로 항의 수를 셉니다. 상기 경우에, 거기 형태로 이용 하였다 및 형태의 측면E[Xiμ]=0E[Xiμ]=0E[(Xiμ)2]=σ2E[(Xiμ)2]=σ2V(ˉX)V(X¯)κ3(ˉX)κ3(X¯)κ3(h(ˉX))κ3(h(X¯))NN(Xiμ)2(Xiμ)2N(N1)N(N1)(Xiμ)(Xjμ)(Xiμ)(Xjμ) .

κ3(ˉX)=E[(ˉXμ)3)]=E[((1NNi=1Xi)μ)3]=E[(1NNi=1(Xiμ))3]=1N3(NE[(Xiμ)3]+3N(N1)E[(Xiμ)E[(Xjμ)2]+N(N1)(N2)E[(Xiμ)]E[(Xjμ)]E[(Xkμ)]=1N2E[(Xiμ)3]=κ3(Xi)N2κ3(X¯)=E[(X¯μ)3)]=E[((1Ni=1NXi)μ)3]=E[(1Ni=1N(Xiμ))3]=1N3(NE[(Xiμ)3]+3N(N1)E[(Xiμ)E[(Xjμ)2]+N(N1)(N2)E[(Xiμ)]E[(Xjμ)]E[(Xkμ)]=1N2E[(Xiμ)3]=κ3(Xi)N2

다음으로 확장하겠습니다.h(ˉX)h(X¯) 으로 Taylor 시리즈에서 를 합니다.

h(ˉX)=h(μ)+h(μ)(ˉXμ)+12h(μ)(ˉXμ)2+13h(μ)(ˉXμ)3+...h(X¯)=h(μ)+h(μ)(X¯μ)+12h′′(μ)(X¯μ)2+13h′′′(μ)(X¯μ)3+...

E[h(ˉX)]=h(μ)+h(μ)E[ˉXμ]+12h(μ)E[(ˉXμ)2]+13h(μ)E[(ˉXμ)3]+...=h(μ)+12h(μ)σ2N+13h(μ)κ3(Xi)N2+...E[h(X¯)]=h(μ)+h(μ)E[X¯μ]+12h′′(μ)E[(X¯μ)2]+13h′′′(μ)E[(X¯μ)3]+...=h(μ)+12h′′(μ)σ2N+13h′′′(μ)κ3(Xi)N2+...

더 많은 노력으로 나머지 용어가 임을 증명할 수 있습니다. 마지막으로, , ( 와 동일하지 ), 다시 비슷한 계산을합니다.O(N3)O(N3)κ3(h(ˉX))=E[(h(ˉX)E[h(ˉX)])3]κ3(h(X¯))=E[(h(X¯)E[h(X¯)])3]E[(h(ˉX)h(μ))3]E[(h(X¯)h(μ))3]

κ3(h(ˉX))=E[(h(ˉX)E[h(ˉX)])3]=E[(h(μ)+h(μ)(ˉXμ)+12h(μ)(ˉXμ)2+O((ˉXμ)3)h(μ)12h(μ)σ2NO(N2))3]κ3(h(X¯))=E[(h(X¯)E[h(X¯)])3]=E[(h(μ)+h(μ)(X¯μ)+12h′′(μ)(X¯μ)2+O((X¯μ)3)h(μ)12h′′(μ)σ2NO(N2))3]

우리는 순서의 결과에만 관심이 있으며 추가 작업을 통해 " 용어가 필요하지 않음을 보여줄 수 있습니다 "또는" "는 순서 의해서만 제 3의 힘을 취하기 전에O(N2)O(N2)O((ˉXμ)3)O((X¯μ)3)O(N2)O(N2)O(N3)O(N3) . 그래서 단순화하면

κ3(h(ˉX))=E[(h(μ)(ˉXμ)+12h(μ)(ˉXμ)212h(μ)σ2N))3]=E[h(μ)3(ˉXμ)3+18h(μ)3(ˉXμ)618h(μ)3σ6N3+32h(μ)2h(μ)(ˉXμ)4+34h(μ)h(μ)(ˉXμ)532h(μ)2h(μ)(ˉXμ)2σ2N+O(N3)]κ3(h(X¯))=E[(h(μ)(X¯μ)+12h′′(μ)(X¯μ)212h′′(μ)σ2N))3]=E[h(μ)3(X¯μ)3+18h′′(μ)3(X¯μ)618h′′(μ)3σ6N3+32h(μ)2h′′(μ)(X¯μ)4+34h(μ)h′′(μ)(X¯μ)532h(μ)2h′′(μ)(X¯μ)2σ2N+O(N3)]

나는 이 제품에서 분명히 용어를 생략했다 . 및 이라는 용어는 과 같습니다.O(N3)O(N3)E[(ˉXμ)5]E[(X¯μ)5]E[(ˉXμ)6]E[(X¯μ)6]O(N3)O(N3) 도 마찬가지입니다. 하나,

E[(ˉXμ)4]=E[1N4(Ni=1(ˉXμ))4]=1N4(NE[(Xiμ)4]+3N(N1)E[(Xiμ)2]E[(Xjμ)2]+0)=3N2σ4+O(N3)E[(X¯μ)4]=E[1N4(i=1N(X¯μ))4]=1N4(NE[(Xiμ)4]+3N(N1)E[(Xiμ)2]E[(Xjμ)2]+0)=3N2σ4+O(N3)

그리고 우리의 방정식에 기대 배포 , 우리는이κ3(h(ˉX))κ3(h(X¯))

κ3(h(ˉX))=h(μ)3E[(ˉXμ)3]+32h(μ)2h(μ)E[(ˉXμ)4]32h(μ)2h(μ)E[(ˉXμ)2]σ2N+O(N3)=h(μ)3κ3(Xi)N2+92h(μ)2h(μ)σ4N232h(μ)2h(μ)σ4N2+O(N3)=h(μ)3κ3(Xi)N2+3h(μ)2h(μ)σ4N2+O(N3)κ3(h(X¯))=h(μ)3E[(X¯μ)3]+32h(μ)2h′′(μ)E[(X¯μ)4]32h(μ)2h′′(μ)E[(X¯μ)2]σ2N+O(N3)=h(μ)3κ3(Xi)N2+92h(μ)2h′′(μ)σ4N232h(μ)2h′′(μ)σ4N2+O(N3)=h(μ)3κ3(Xi)N2+3h(μ)2h′′(μ)σ4N2+O(N3)

이것으로 의 유도가 끝납니다 . 이제 마지막으로 대칭 변환κ3(h(ˉX))κ3(h(X¯))A(u)=u1[V(θ)]1/3dθA(u)=u1[V(θ)]1/3dθ 합니다.

이 변환에서 가 지수 패밀리 분포, 특히 자연 지수 패밀리 (또는이 분포로 변환 된 것)에서XiXifXi(x;θ)=h(x)exp(θxb(θ))fXi(x;θ)=h(x)exp(θxb(θ))

이 경우 분포의 은 됩니다. 따라서 , 및 입니다. 쓰고 의 역수를 취하는 함수로 매개 변수를 쓸 수 있습니다 . 그때κk=b(k)(θ)κk=b(k)(θ)μ=b(θ)μ=b(θ)σ2=V(θ)=b(θ)σ2=V(θ)=b′′(θ)κ3=b(θ)κ3=b′′′(θ)θθμμbbθ(μ)=(b)1(μ)θ(μ)=(b)1(μ)

θ(μ)=1b((b)1(μ))=1b(θ))=1σ2θ(μ)=1b′′((b)1(μ))=1b′′(θ))=1σ2

다음으로 분산을 의 함수로 작성 하고이 함수를μˉV .

ˉV(μ)=V(θ(μ))=b(θ(μ))

그때

ddμˉV(μ)=V(θ(μ))θ(μ)=b(θ)1σ2=κ3σ2

따라서의 함수로서 ,μκ3(μ)=ˉV(μ)ˉV(μ) .

이제 대칭 변환을 위해 를 만들어 의 왜도를 줄이려고합니다. 이므로 는h(ˉX)h(μ)3κ3(Xi)N2+3h(μ)2h(μ)σ4N2=0h(ˉX)O(N3) 입니다. 따라서 우리는 원합니다

h(μ)3κ3(Xi)+3h(μ)2h(μ)σ4=0

및 대한 표현을 함수로σ2κ3μ 같습니다.

h(μ)3ˉV(μ)ˉV(μ)+3h(μ)2h(μ)ˉV(μ)2=0

따라서 이므로h(μ)3ˉV(μ)+3h(μ)2h(μ)ˉV(μ)=0ddμ(h(μ)3ˉV(μ))=0 입니다.

이 미분 방정식에 대한 한 가지 해결책은 다음과 같습니다.

h(μ)3ˉV(μ)=1 ,

h(μ)=1[ˉV(μ)]1/3

따라서 는 상수 입니다. 이것은 대칭 변환 . 여기서 는 다음과 같은 분산입니다. 자연 지수 가족에서 평균의 함수.h(μ)=μc1[ˉV(θ)]1/3dθcA(u)=u1[V(θ)]1/3dθV


1

1.Why 내가 noncentral 순간의 측면에서 근사하여 동일한 결과를 얻을 수 없습니다 한 후 중앙 순간 계산EˉXkE(ˉXEˉX)k 대략적인 비 중심 모멘트를 사용하는 ?

파생을 임의로 변경하고 중요한 잔차 항을 삭제하기 때문입니다. 큰 O 표기법 및 관련 결과에 익숙하지 않은 경우 [Casella & Lehmann]을 참조하십시오.

h(ˉX)h(u)h(u)(ˉXμ)+h(x)2(ˉXμ)2+O[(ˉXμ)3]

E[h(ˉX)h(u)]h(u)E(ˉXμ)+h(x)2E(ˉXμ)2+(?)

그러나 항상 (법적이지 않습니다 ...)를 하고 있다고 주장하여 잔류 물을 떨어 뜨리지 않아도 다음 단계 : 라고된다N\E(h(ˉX)h(u))3h(μ)3\E(ˉXμ)3+32h(μ)2h(μ)\E(ˉXμ)4+34h(μ)h(μ)2\E(ˉXμ)5+18h(μ)3\E(ˉXμ)6.(1)

[h(x)h(x0)]3dx=[h(x0)(xx0)+12h(x0)(xx0)2+O((xx0)3)]3dx=(1)

이것이 여전히 명확하지 않다면, 우리는 정수 확장의 대수가

[h(x0)(xx0)+12h(x0)(xx0)2+O((xx0)3)]3(2)

시키는 , ,A=h(x0)(xx0)B=12h(x0)(xx0)2C=O((xx0)3) (2)=[A+B+C]3 [A3+3A2B+3AB2+B3]=[A+B]3=(1)

실수는 확장 전에 잔류 물을 생략하는 것인데, 이는 큰 O 표기법에서 "고전적인"실수이며 나중에 큰 O 표기법의 사용에 대한 비판이되었습니다.

2. 왜 분석 이 대신 시작ˉXX 우리가 실제로 관심 합니까?

우리는 우리가 소개하고있는 지수 모델의 충분한 통계량을 바탕으로 분석을 수행하기를 원하기 때문입니다. 표본 크기가 1 인 경우 OR 분석하든 차이가 없습니다.ˉX=1nni=1XiX1 .

이것은 GLM과 관련이 없지만 큰 O 표기법에서 좋은 교훈입니다 ...

참조 [Casella 및 레만] 레만 에리히 레오 및 조지 카셀라. 포인트 추정 이론. Springer Science & Business Media, 2006.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.