모형의 잘못된 사양에 따른 통계적 추론


9

일반적인 방법 론적 질문이 있습니다. 이전에 답변을 받았을 수도 있지만 관련 스레드를 찾을 수 없습니다. 가능한 중복에 대한 포인터에 감사드립니다.

( 이것은 훌륭한 것이지만 대답은 없습니다. 이것은 대답 있더라도 정신적으로 비슷하지만 후자는 내 관점에서 너무 구체적입니다. 이것은 질문을 게시 한 후에도 가깝습니다.)


주제는 데이터를보기 전에 공식화 한 모델이 데이터 생성 프로세스를 적절히 설명하지 못하는 경우 유효한 통계적 추론을 수행하는 방법 입니다. 질문은 매우 일반적이지만 요점을 설명하기 위해 특정 예를 제공합니다. 그러나 나는 그 대답이 특정 예의 세부 사항에 대한 단순한 선택보다는 일반적인 방법 론적 질문에 초점을 맞추기를 기대합니다.


구체적인 예를 고려하십시오. 시계열 설정에서는 데이터 생성 프로세스가

(1)yt=β0+β1xt+ut
uti.i.N(0,σu2). 나는 주제에 관한 가설을 검증하는 것을 목표로dydx=1. 모델 측면에서 캐스트(1) 주제 주제 가설의 실행 가능한 통계적 대응을 얻기 위해
H0: β1=1.
여태까지는 그런대로 잘됐다. 그러나 데이터를 관찰하면 모델이 데이터를 적절하게 설명하지 않는다는 것을 알게됩니다. 선형 추세가 있으므로 실제 데이터 생성 프로세스는 다음과 같습니다.
(2)yt=γ0+γ1xt+γ2t+vt
vti.i.N(0,σv2).

주제 문제 가설에 대한 유효한 통계적 추론을 어떻게 수행 할 수 있습니까? dydx=1?

  • 원래 모델을 사용하면 해당 가정이 위반되고 β1그렇지 않으면 좋은 배포판이 없습니다. 따라서 나는t-테스트.

  • 데이터를 본 후 모델에서 전환하면 (1)(2) 통계 가설을 H0: β1=1H0: γ1=1, 모델 가정이 만족되고 나는 잘 행동하는 추정량을 얻는다 γ1 테스트 할 수 있습니다 H0 어려움없이 사용 t-테스트.
    그러나 스위치에서(1)(2)가설을 테스트하려는 데이터 세트에 의해 알려집니다. 이는 추정 된 데이터로 인한 기본 모델의 변화에 ​​대한 추정기 분포 (및 추론)를 조건부로 만듭니다. 분명히, 그러한 컨디셔닝의 도입은 만족스럽지 않다.

좋은 방법이 있습니까? (자주주의가 아니라면 베이지안 대안이 있습니까?)


3
당신의 불편 함은 PhD 수여에 대한 고전적인 접근법, 즉 신중한 가설 명세, 경험적 테스트 및 서술 적 인과 추론으로 끝나는 고유 한 접근법에 고유합니다. 이 세상에서 짧은 대답은 "아니오"입니다. 그러나 세계는 그 엄격한 패러다임에서 벗어나고 있습니다. 예를 들어, Kleinberg 등의 예측 정책 문제 라는 제목 의 AER의 작년 논문에서 그들은 인과 적 추론이 중심이 아니거나 심지어 필요한." 볼만한 가치가 있습니다.
Mike Hunter

2
내 견해로는, 직접적인 대답은 벗어날 길이 없어야 할 것이다. 그렇지 않으면 최악의 데이터 마이닝에 유죄가 될 것입니다. 가설을 데이터에 맞추기 위해 엄격한 패러다임 세계의 자본 범죄입니다.
Mike Hunter

3
올바르게 이해하면 데이터를 수집 한 다음 모델을 선택한 다음 가설을 테스트하는 것입니다. 내가 틀렸을 수도 있지만 Taylor와 Tibshirani가 조사한 선택적 추론 패러다임은 다른 문제와 관련이있을 수 있습니다. 그렇지 않으면 이 질문에 대한 의견, 답변 및 링크 된 답변 흥미로울 수 있습니다.
DeltaIV

3
@DeltaIV, 즉 추론을 할 때 P 일관성에서와 같이 가장 잘못된 매개 변수에 관심이 없지만 실제 매개 변수 (진정한 부분 파생 상품)에 관심이 있습니다.y wrt x).
Richard Hardy

3
@RichardHardy는 물론 통계 대학원생 임에도 불구하고 더 이상 추론을 믿지 않습니다. 매우 엄격하고 통제 된 상황을 제외하고는 의미가 있는지 확실하지 않은 매우 취약한 카드 하우스입니다. 재밌는 것은 모두가 이것을 알고 있지만 아무도 (잘) 신경 쓰지 않는다는 것입니다.
hejseb

답변:


3

탈출구는 말 그대로 샘플 테스트에서 벗어난 것입니다. 샘플을 훈련으로 나누고 교차 검증과 같이 유지하는 것이 아니라 실제 예측입니다. 이것은 자연 과학에서 잘 작동합니다. 실제로 그것이 작동하는 유일한 방법입니다. 일부 데이터에 대한 이론을 세우면 아직 관찰되지 않은 것을 예측할 수 있습니다. 분명히 이것은 경제학과 같은 대부분의 사회 과학에서 작동하지 않습니다.

업계에서 이것은 과학 에서처럼 작동합니다. 예를 들어, 거래 알고리즘이 작동하지 않으면 결국 돈을 잃게되고 포기하게됩니다. 교차 검증 및 교육 데이터 세트는 개발 및 알고리즘 배포 결정에 광범위하게 사용되지만, 생산 후 수익 창출 또는 손실에 관한 것입니다. 샘플 테스트 중 매우 간단합니다.


추정에 도움이됩니까? yx?
Richard Hardy

@RichardHardy, 예, 새 데이터에 대해 동일한 가설을 테스트합니다. 그것이 유지되면 당신은 좋다. 모델이 잘못 지정되면 결국 실패해야합니다. 다른 진단도 의미합니다. 모델이 새 데이터로 작동하지 않는 것을 볼 수 있습니다.
Aksakal

좋습니다. 그러면 샘플을 모델 구축을위한 서브 샘플과 가설 테스트를위한 서브 샘플로 분할하는 오래된 처방전처럼 들립니다. OP에 이미 그 고려 사항을 포함시켜야했습니다. 어쨌든 그것은 건전한 전략처럼 보입니다. 예를 들어, 거시 경제학의 문제는 동일한 모델이 보이지 않는 데이터에 거의 적합하지 않을 것입니다 (데이터 생성 프로세스가 시간이 지남에 따라 변경됨). 그러나 기본적으로 모든 방법이 실패하는 예이므로 공정한 비판이 아닙니다.
Richard Hardy

한편, 단면 데이터 설정의 미시 경제학에서는 효과가 있습니다. 지금은 +1입니다. 반면, 모델이 사용 가능한 모든 데이터에 적합하면이 솔루션은 작동하지 않습니다. 나는 그것이 내가 질문을 쓸 때 생각했던 것 같고 제목 질문에 대한 답변을 찾고 있습니다 : 잘못 지정된 모델의 추론.
Richard Hardy

2
나는 당신의 견해에 동정합니다. 그러나 "old"와 "new"로 분할 된 샘플은 새로운 데이터를 수집하는 것과 동일하므로 둘 사이의 차이점이 큰 부분을 이해하지 못합니다.
Richard Hardy

1

"결합 된 절차"를 정의하고 그 특성을 조사 할 수 있습니다. 단순 모델에서 시작하여 단순 모델이 적합하지 않은 경우 1 개, 2 개 또는 3 개의 더 복잡한 (또는 비모수 적) 모델을 적합하다고 가정 해 봅시다. 단순 모델에 적합하지 않고 다른 모델 중 하나 (그리고 어느 하나)에 적합하지 않은지 결정하는 공식 규칙을 지정해야합니다. 또한 관련된 모든 모형 (모수 또는 비모수)에 적용 할 가설에 대한 테스트를 수행해야합니다.

이러한 설정을 통해 특성을 시뮬레이션 할 수 있습니다. 예를 들어 귀무 가설이 참일 경우 몇 가지 편차가있을 경우 귀무 가설을 기각 할 수 있습니다. 또한 모든 관련 모델에서 시뮬레이션 할 수 있으며 데이터가 모델 X, Y 또는 Z에서 제공되었거나 모델 오 사양 지정 테스트 절차에서 모델 X, Y 또는 Z를 선택한 경우 조건부 수준 및 조건부 전력과 같은 항목을 볼 수 있습니다.

달성 한 수준이 여전히 이전 수준과 매우 비슷하다는 점에서 모델 선택이 큰 해를 끼치 지 않으며 우수하지 않은 경우에는 전력이 정상입니다. 또는 데이터 종속 모델 선택이 실제로 문제를 야기 할 수 있습니다. 세부 사항에 따라 달라집니다 (모델 선택 절차가 매우 신뢰할 수있는 경우 기회는 일정하며 전력은 크게 영향을받지 않습니다).

이제는 하나의 모델을 지정한 다음 데이터를보고 "오, 다른 모델이 필요합니다"를 결정하는 것과 완전히 같지 않지만, 이러한 접근 방식의 특성이 무엇인지 조사 할 수있을 것입니다. 이 작업을 수행하려면 여러 가지 선택을해야하므로 간단하지 않습니다.

일반적인 설명 : 적용된 통계적 방법론을 이진법으로 "유효한"및 "유효하지 않은"것으로 분류하는 것이 오해의 소지가 있다고 생각합니다. 모델 가정이 실제로 정확하게 유지되지 않기 때문에 100 % 유효한 것은 없습니다. 반면에, "유효하지 않은"것을 호출하는 데 유효한 (!) 이유를 찾을 수 있지만, 잘못된 것으로 간주되는 접근 방식의 특성을 자세히 조사하면 여전히 제대로 작동한다는 것을 알 수 있습니다.


나는 이것이 가장 간단한 문제를 제외하고 실제로 현실적인지 궁금합니다. 전산 시뮬레이션 비용은 대부분의 경우에 우리의 능력을 빠르게 능가 할 것입니다. 그렇지 않습니까? 유효성에 대한 귀하의 의견은 물론 논리적입니다. 그러나이 단순하면서도 유용한 (우리의 추론을 돕는) 개념이 없다면 우리는 그것보다 훨씬 더 잃어 버릴 것입니다. 그것이 나의 관점입니다.
Richard Hardy

나는 그러한 상황이 실제로 충족 될 때마다 이것이 이루어져야한다는 말은 아닙니다. 오히려 연구 프로젝트입니다. 그러나 한 가지 이유는 주어진 이유로 인해 데이터 종속 모델 선택이 그렇지 않으면 유효했던 추론을 정확하게 무효화하지 않는다는 의견입니다. 이러한 결합 된 절차는 현재 제대로 조사되지 않았지만 많은 상황에서 다소 효과적 일 수 있습니다.
Lewian

이것이 가능하다면 이미 사용 중일 것입니다. 주요 문제는 데이터에 의존하는 대량의 모델링 선택 (첫 번째 의견으로 돌아 가기)으로 인해 실행 불가능한 것일 수 있습니다. 아니면 거기에 문제가 없습니까?
Richard Hardy

문헌에는 잘못된 사양 테스트 / 모델 선택을 먼저 탐구 한 다음 그 결과에 따라 조건부로 추론하는 이상한 시뮬레이션이 있습니다. 내가 아는 한 결과가 섞여 있습니다. "고전적인"예가 여기 있습니다 : tandfonline.com/doi/abs/10.1080/…
Lewian

하지만 당신 말이 맞아요. 가능한 모든 종류의 모델링 옵션으로 전체 프로세스를 모델링하려면 많은 선택이 필요합니다. 나는 그것이 가치있는 프로젝트 일 것이라고 생각하지만, 모델이 적합한 동일한 데이터에서 모델을 선택할 때마다 요구 할 수있는 것은 아닙니다. 그런데 Aris Spanos는 데이터의 잘못된 사양 테스트 또는 모델 확인으로 인해 추론이 유효하지 않다는 생각에 반대합니다. onlinelibrary.wiley.com/doi/abs/10.1111/joes.12200
Lewian
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.