종속 관측치에서 부트 스트랩을 통해 신뢰 구간 계산


12

표준 형태의 부트 스트랩은 관측치가 iid 인 경우 추정 된 통계의 신뢰 구간을 계산하는 데 사용할 수 있습니다. I. Visser et al. " 숨겨진 Markov 모델 매개 변수의 신뢰 구간 "에서 매개 변수 부트 스트랩을 사용하여 HMM 매개 변수의 CI를 계산했습니다. 그러나 관측 시퀀스에 HMM을 적용 할 때는 이미 혼합 모델과 달리 관측이 종속적이라고 가정했습니다.

두 가지 질문이 있습니다.

  1. iid 가정은 부트 스트랩과 어떤 관계가 있습니까?
  2. 파라 메트릭 부트 스트랩에서 iid 요구 사항을 무시할 수 있습니까?

Visser et al. 방법은 간단히 다음과 같습니다.

  1. 관측 시퀀스 가 있다고 가정합니다 . . . , O , N은 파라미터 세트 진짜이지만 알려지지 함께 HMM 샘플링 기인 θ = θ 1 , θ 2 , . . . , θ l .Y=o1,o2,...,onθ=θ1,θ2,...,θl
  2. 파라미터들은 EM 알고리즘을 사용하여 추정 될 수있다 θ^=θ^1,θ^2,...,θ^l
  3. 추정 된 HMM을 사용하여 크기가 : Y * = o * 1 , o * 2 부트 스트랩 샘플을 생성하십시오 . . . , o nnY=o1,o2,...,on
  4. 부트 스트랩 샘플에 따른 HMM의 파라미터를 추정 θ^=θ^1,θ^2,...,θ^l
  5. 단계 3 및 4를 반복 시간 (예를 들어, B = 1000)에서 얻어진 B의 부트 스트랩 추정 : θ * ( 1 ) , θ * ( 2 ) , . . . , θ * ( B )BBBθ^(1),θ^(2),...,θ^(B)
  6. θ^iθ^i

메모 (내 연구 결과) :

  1. 백분위 수 방법은 올바른 적용 범위를 갖기 위해 CI를 계산하는 데 사용해야합니다 (정상은 잘못된 가정입니다).
  2. θ^iθ^i

다시 말해 첫 번째 질문 : 부트 스트랩에 iid 가정이 미치는 영향은 무엇입니까? 더 복잡한 알고리즘이나 공식을 따르면 제거 할 수있는 단순화 된 가정입니까?
Sadeghd

답변:


11

짧은 대답 : 1. 그것은 그것을 단순화합니다. (Frankly, 나는 질문을 얻지 못했다). 2. 아닙니다. iid가 부족하면 추정하는 것의 차이에 즉각적인 영향을 미치므로 무시할 수 없습니다.

중간 답변 : 부트 스트랩의 중심 문제는 '제안 된 절차가 데이터의 기능을 재현합니까?'입니다. . iid 가정을 위반하는 것은 큰 문제입니다. 데이터는 종속적이며, 같은 크기의 iid 샘플에서보다 정보에 적은 정보를 가지고 있으며, 순진한 부트 스트랩을 실행하는 경우 (개체를 다시 샘플링하십시오) 관측치) 표준 오차는 너무 작습니다. 제안 된 절차는 모델 구조 및 파라미터의 의존성을 포착 (또는 적어도 포착하려고 시도)함으로써 독립성 부족 문제를 회피한다. 성공하면 각 부트 스트랩 샘플은 필요에 따라 데이터의 기능을 재현합니다.

긴 대답 :부트 스트랩에 관한 여러 계층의 가정이 있으며, 가장 간단한 경우 (iid 데이터, 평균 추정)에도 최소한 세 가지 가정을해야합니다. (1) 관심 통계는 데이터의 원활한 기능입니다. (평균의 경우 참, 백분위 수의 경우에도 그렇게 사실이 아니며 가장 가까운 이웃 매칭 추정기로 완전히 벗어남); (2) 부트 스트랩이되는 분포는 모집단 분포와 "가까운"분포 (iid 데이터의 경우 정상 작동, 종속 데이터의 경우에는 정상적으로 작동하지 않을 수 있음) 시계열의 경우,이 단일 관측 값을 준 인구로 구성하기 위해 정지성 및 혼합과 같은 추가 가정을 호출해야합니다. (3) Monte Carlo 부트 스트랩 샘플링은 가능한 모든 서브 샘플을 사용하여 완전한 부트 스트랩에 충분히 근사합니다 (Monte Carlo 사용과 전체 부트 스트랩의 부정확도는 캡처하려는 불확실성보다 훨씬 적습니다). 파라 메트릭 부트 스트랩의 경우, (4) 모델이 데이터의 모든 기능을 완벽하게 설명한다고 가정합니다.

y=xβ+ϵ[ϵ]=exp[xγ]σ¯2(XX)1σ¯21/niexp[xiγ](XX)1exp[xiγ]xixi(XX)1). 따라서 완전히 파라 메트릭 부트 스트랩 솔루션을 원한다면 이분산성 모델과 평균 모델을 적합시켜야합니다. 그리고 일련의 상관 관계 또는 다른 종류의 상관 관계가 의심되는 경우 해당 모델에도 적합해야합니다. (데이터의 음성을 모델의 합성 된 음성으로 대체했기 때문에 부트 스트랩의 비모수 분포가없는 맛은 거의 사라졌습니다.)

설명한 방법은 완전히 새로운 샘플을 생성하여 iid 가정을 해결합니다. 종속 데이터 부트 스트랩의 가장 큰 문제점은 원본 데이터의 패턴과 충분히 유사한 종속 패턴을 갖는 샘플을 작성하는 것입니다. 시계열을 사용하면 블록 부트 스트랩을 사용할 수 있습니다. 클러스터 된 데이터를 사용하면 전체 클러스터를 부트 스트랩합니다. 이 분산 회귀 분석을 사용하면 와일드 부트 스트랩과 관련이 있습니다 (이 분산 모델을 장착하더라도 잔차의 부트 스트랩보다 더 좋습니다). 블록 부트 스트랩에서는 시계열의 먼 부분이 대략 독립적이므로 모든 상관 구조가 인접한 5 또는 10에 의해 캡처되도록 교육 된 추측을해야합니다 (즉, 믿을만한 이유가 있어야 함) 블록을 형성하는 관측. 따라서 시계열의 상관 관계 구조를 완전히 무시하는 관찰을 하나씩 리샘플링하는 대신 상관 관계 구조를 존중하기를 바라면서 블록 단위로 리샘플링합니다. 당신이 언급 한 파라 메트릭 부트 스트랩은 다음과 같이 말합니다. "데이터를 다루고 오래된 인형의 조각에서 새로운 인형을 조립하는 대신, 성형 된 바비 인형 전체를 대신 스탬핑하지 말아야 할 이유는 무엇입니까? Barbies of 당신이 좋아하고, 나는 당신도 당신이 원하는 것을 만들겠다고 약속합니다. " 데이터를 다루고 오래된 인형의 조각에서 새로운 인형을 조립하는 대신, 대신 성형 바비 인형 전체를 대신 찍지 않겠습니까? 나는 당신이 어떤 종류의 바비를 좋아하는지 알아 냈으며, 당신도 당신이 원하는 바비를 만들어 줄 것을 약속드립니다. " 데이터를 다루고 오래된 인형의 조각에서 새로운 인형을 조립하는 대신, 대신 성형 바비 인형 전체를 대신 찍지 않겠습니까? 나는 당신이 어떤 종류의 바비를 좋아하는지 알아 냈으며, 당신도 당신이 원하는 바비를 만들어 줄 것을 약속드립니다. "

설명한 파라 메트릭 부트 스트랩의 경우, HMM 모델 적합이 거의 완벽하다는 것을 확신해야합니다. 그렇지 않으면 파라 메트릭 부트 스트랩이 잘못된 결과 (팔을 움직일 수없는 바비)로 이어질 수 있습니다. 위의 이분산성 리지 션 예제를 생각해보십시오. 또는 AR (1) 모델을 AR (5) 데이터에 맞추는 것에 대해 생각해보십시오. 파라 메트릭 시뮬레이션 된 데이터로 무엇을하든 원래 데이터에 사용 된 구조는 없습니다.

편집 : Sadeghd가 그의 질문을 분명히했듯이, 나는 그것에 대해서도 대답 할 수 있습니다. 통계, 표본 크기, 의존성 또는 부트 스트랩 관련 문제에 관계없이 특정 문제를 해결하는 다양한 부트 스트랩 절차가 있습니다. 예를 들어 의존성을 해결하는 단일 방법은 없습니다. (나는 설문 조사 부트 스트랩으로 작업했지만 약 8 가지 절차가 있지만 일부는 실질적인 관심보다는 방법 론적이지만 일부는 쉽게 일반화 할 수없는 특별한 경우에만 적용 할 수 있다는 점에서 분명히 열등합니다.) 부트 스트랩에 직면 할 수있는 문제에 대한 일반적인 토론은 Canty, Davison, Hinkley 및 Ventura (2006)를 참조하십시오 . 부트 스트랩 진단 및 조치. 캐나다 통계 저널, 34 (1), 5-27 .


의존성 데이터 클러스터 ( 중간 섹션) 가있을 때 정보가 적다는 것에 대한 진술에 약간의 설명을 추가하기 위해 클러스터 내에 긍정적 인 클래스 간 상관 관계 가있는 경우에는 이것이 사실 이지만 부정적인 경우에는 그 반대가 사실 이라고 생각합니다 클래스 내 상관 관계. 물론 대부분의 실제 데이터 응용 프로그램에서 클래스 내 상관 관계는 긍정적 인 것으로 보입니다.
매크로

@ 매크로 : 당신은 확실히 두 가지 측면에서 옳습니다 (기술적으로 가능하고 실제로는 관련이 없음). 음의 상관 관계를 갖는 AR (1) 프로세스의 평균 레벨을 추정하는 경우에도 마찬가지이지만,이 기능이있을 수있는 실제 프로세스에 대해서는 생각이 없습니다. 다른 시간 척도에서자가 재현 가능한 양의 자기 상관과 달리, 음의 상관 관계는 참조 기간의 길이를 두 배로 늘리면 사라져야합니다. (미국 GDP와 같은 비즈니스 사이클 데이터는 약 3 년의 지연 시간에서 음의 상관 관계를 갖습니다.)
StasK

자세한 답변 주셔서 감사합니다. 파라 메트릭 리샘플링은 의존의 영향을 감소시킬 수 있다고 결론지었습니다. 그러나 모수 분포는 실제 모집단을 대표해야하며 의존성 패턴은 리샘플링에서 재생성됩니다.
Sadeghd
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.