부정확 화에 따른 통계적 추론


14

통계적 추론의 고전적인 처리는 올바르게 지정된 통계가 사용된다는 가정에 의존합니다. 즉, 유통 인 P(Y) 가 감시 데이터를 생성하는 것이 y 통계 모델의 부분 M :

P(Y)M={Pθ(Y):θΘ}
하지만, 대부분의 상황에서는 불가능 이것이 사실이라고 가정하십시오. 올바르게 지정된 가정을 철회하면 통계적 추론 절차가 어떻게 진행되는지 궁금합니다.

White 1982의 잘못된 사양에 따른 ML 추정에 대한 연구 결과가 있습니다 . 최대 우도 추정값은 통계 모델 내 모든 분포에서 KL- 분산을 최소화하는 분포 대한 일관된 추정량이라고합니다. 실제 분포 P .

Pθ1=argminPθMKL(P,Pθ)
P

신뢰 집단 추정치는 어떻게됩니까? 신뢰 집단 추정값을 요약 할 수 있습니다. 하자 세트 추정 될 Ω Y는 샘플 공간과 2 Θ 매개 변수 공간을 통해 전력 세트 Θ . 우리가 알고 싶은 것은 δ에 의해 생성 된 집합 에 실제 분포 P * , 즉 P * ( P *{ P θ : θ δ ( Y ) }가 포함될 확률입니다.δ:ΩY2ΘΩY2ΘΘδP

P(P{Pθ:θδ(Y)}):=A.

그러나 우리는 물론 실제 분포 알지 못합니다 . 올바르게 지정된 가정은 P *M 입니다. 그러나 우리는 여전히 모델의 분포를 모릅니다. 그러나 inf θ Θ P θ ( θ δ ( Y ) ) : = B 는 확률 A의 하한입니다 . 방정식 B 는 신뢰 집합 추정기에 대한 신뢰 수준의 고전적인 정의입니다.PPM

infθΘPθ(θδ(Y)):=B
AB

올바르게 지정된 가정을 삭제하면 가 더 이상 실제로 관심있는 용어 인 A 의 하 한일 필요는 없습니다. 실제로 모형이 잘못 결정되었다고 가정하면 (실제로 가장 현실적인 상황의 경우), A 는 0입니다. 실제 분포 P * 는 통계 모형 M 내에 포함되어 있지 않기 때문 입니다.BAAPM

다른 관점에서 , 모델이 잘못 지정되었을 때 가 어떤 관계 인지 생각할 수 있습니다. 이것은 더 구체적인 질문입니다. 모델을 잘못 지정하면 B에 여전히 의미가 있습니까? 그렇지 않다면 왜 우리는 파라 메트릭 통계를 귀찮게합니까?BB

White 1982 에 이러한 문제에 대한 결과가 포함되어 있다고 생각 합니다. 불행히도, 수학적 배경이 부족하여 거기에 쓰여진 많은 것을 이해하지 못하게됩니다.


1
이 질문 + 답변 stats.stackexchange.com/questions/149773/…을 찾았습니다 . 매우 비슷합니다. 이 책들을 읽으면 아마도이 질문에 대한 답으로 이어질 것입니다. 그러나 여전히이 작업을 수행 한 누군가의 요약은 매우 도움이 될 것이라고 생각합니다.
Julian Karls

2
줄리안의 링크에는 좋은 자료가 있지만 그 문제에 대해 더 많은 의견을 듣고 싶습니다.
Florian Hartig

1
일반적으로 통계 모델이 정확하다고 가정하면 검정 통계량의 분포는 귀무 가설 하에서 계산됩니다. p-값이 충분히 낮 으면 우연이 원인이거나 널이 거짓이라는 결론을 내립니다. 그러나 모델이 잘못 지정되면 논리적으로 그릴 수 있다는 결론이기도합니다. 다른 모든 추론에서도 마찬가지입니다. 모델이 잘못 지정되었다는 사실은 다른 결론을 제공합니다. 이것이 내가 Spanos의 연구를 읽은 것에 기초하여 그것에 대해 생각하는 방법입니다.
Toby

기본적으로 모든 모델이 잘못되었습니다. 잘못 사양을 정량적으로 개발하는 데 도움이됩니다. 이미지의 경우 잘못된 사양은 잘못된 등록입니다. 예를 들어, 충분한 수의 계수에 대한 계수 오류 (예를 들어, 방사성 붕괴로부터)에 대한 오류는 포아송 분포입니다. 이 경우 시계열의 잘못된 등록은 이미지의 제곱근의 y 축 오류이며 노이즈는 동일한 단위입니다. 여기에 예가 있습니다 .
Carl

답변:


2

하자 y1,,yn IID 랜덤 변수들의 시퀀스의 실현으로 추정 된 관측 데이터 일 Y1,,Yn 일반적인 확률 밀도 함수와pe 시그마 유한 계수에 대해 정의ν . 밀도pe 를 데이터 생성 프로세스 (DGP) 밀도라고합니다.

연구원의 확률 모델에서 M{p(y;θ):θΘ} 는 모수 벡터 θ 의해 색인화 된 확률 밀도 함수의 모음입니다 . M 에서의 각각의 밀도 는 공통 시그마 유한 측정 값 ( ν 대해 정의 된 것으로 가정한다 (예를 들어, 각각의 밀도는 동일한 샘플 공간 S 갖는 확률 질량 함수일 수있다 ).

실제로 데이터를 생성 한 밀도 pe 를 데이터의 확률 모델과 개념적으로 구별하는 것이 중요합니다 . 고전적인 통계 처리에서 이러한 개념의 신중한 분리는 무시되거나 만들어지지 않았거나 확률 모델이 올바르게 지정되었다고 가정합니다.

된 올바른 지정된 모델 M 에 대하여 pe 모델로 정의되는 peM ν - 지하 사방. p e 와 관련하여M 이 잘못 지정되면 확률 모델이 올바르게 지정되지 않은 경우에 해당합니다.pe

확률 모델은 정확하게 지정되면, 그 다음이 존재 θ 파라미터 공간에서 Θ 되도록 pe(y)=p(y;θ) ν - 지하 사방. 이러한 매개 변수 벡터를 "참 매개 변수 벡터"라고합니다. 확률 모델이 잘못 지정되면 실제 모수 벡터가 존재하지 않습니다.

화이트의 잘못된 모형 프레임 워크 내 목표는 매개 변수 추정 찾을 수 있습니다 θ N 이 최소화됩니다 N ( θ ) ( 1 / N ) Σ를 N = 1 로그 페이지를 ( Y , θ ) 일부 소형 매개 변수 공간을 통해 Θ . 고유의 엄격한 국제 최소화 부, 가정한다 θ * 의 기대 값, ℓ의 NΘ은 내부에있는 Θθ^n^n(θ)(1/n)i=1nlogp(yi;θ)Θθ^nΘΘ. 확률 모델이 올바르게 지정된 운이 좋은 경우, θ 는 "true parameter value"로 해석 될 수 있습니다.

θ^nθ^nθθ

White (1982) 프레임 워크 내의 일관성은 에 수렴에 해당합니다.θθp(y;θ)

마지막으로 모델의 잘못된 사양에 대한 몇 가지 의견입니다. 잘못 지정된 모델이 매우 유용하고 예측 가능한 예를 쉽게 찾을 수 있습니다. 예를 들어, 분산이 매우 작지만 환경의 실제 잔차 오차가 가우시안이 아닌 가우시안 잔차 오차 항이있는 비선형 (또는 선형) 회귀 모형을 고려하십시오.

올바르게 지정된 모델이 유용하지 않고 예측할 수없는 예제도 쉽게 찾을 수 있습니다. 예를 들어, 내일의 종가를 예측하는 주식 가격 예측을위한 랜덤 워크 모델을 고려하면 오늘 종가의 가중 합과 편차가 매우 큰 일부 가우시안 잡음을 고려할 수 있습니다.

θ


3

ΘMPθ1PMPθ1

ABAPMA=0

AA(Y)P(Pθ1{Pθ|θδ(Y)}).

PMPMPθ1M

Pθ1δAn. (양수) 하한 또는 (양수) 수렴 결과를 설정할 수 있으면 잘못 지정되어 있어도 일부 확률 수준으로 가장 가까운 프록시를 정확하게 추정 할 수 있습니다. White가 수행 한 분석에 따라 이러한 문제를 탐색하는 것이 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.