동질성 가정을 위반하는 회귀 분석에서 부트 스트래핑 표준 오류와 신뢰 구간이 적절합니까?


13

표준 OLS 회귀 분석에서 두 가지 가정이 위반되는 경우 (정규 오차 분포, 균일 성), 표준 오차와 신뢰 구간의 부트 스트랩은 회귀 계수의 중요성과 관련하여 의미있는 결과를 얻기위한 적절한 대안입니까?

부트 스트랩 된 표준 오차와 신뢰 구간에 대한 유의성 검정이 이분산성으로 여전히 "작동"합니까?

그렇다면이 시나리오에서 사용할 수있는 해당 신뢰 구간 (백분위 수, BC, BCA)은 무엇입니까?

마지막으로,이 시나리오에서 부트 스트랩이 적절한 경우이 결론에 도달하기 위해 읽고 인용해야하는 관련 문헌은 무엇입니까? 어떤 힌트라도 대단히 감사하겠습니다!


1
그러한 위반이 있으면 부트 스트래핑이 치료한다고 생각하지 않습니다. 대신 정규성에 가까워지고 R의 샌드위치 패키지와 같은 강력한 표준 오류를 사용하기 위해 데이터를 변환 (로그)하려고 시도하지 않겠습니까?
B_Miner

리샘플링 계획을 현재 상황에 맞게 조정하면 부트 스트랩이 제대로 작동합니다.
Glen_b -Reinstate Monica

답변:


20

독립적이지만 동일하게 분산되지 않은 데이터로 선형 회귀를 위해 부트 스트랩을 수행하는 방법은 적어도 세 가지 (더 많을 수도 있음)입니다. (예를 들어 시계열 데이터와의 자기 상관 또는 샘플링 설계로 인한 클러스터링으로 인해 "표준"가정에 대한 다른 위반이있는 경우 상황이 더욱 복잡해집니다).

  1. 관측치를 전체적으로 다시 샘플링 할 수 있습니다. 즉, 원래 데이터 에서 를 대체하여 표본을 추출 할 수 있습니다 . 이는 Huber-White이 분산 보정 을 수행하는 것과 동일하게 나타납니다 .{ ( y i , x i ) }(yj,xj){(yi,xi)}
  2. 모형을 적합하고 잔차 를 얻을 수 있으며 각각의 경험적 분포에서 대체하여 독립적으로 및 를 다시 샘플링 할 수 있습니다. 이질성 패턴이 있다면,이 부트 스트랩이 일관성이없는 것 같습니다. X * j 개의 E * J를ei=yixiβ^xjej
  3. 잔차 부호를 다시 샘플링하는 와일드 부트 스트랩 을 수행 하여 조건부 두 번째 모멘트 (및 조건부 세 번째 모멘트에 대한 추가 조정)를 제어 할 수 있습니다. 이것이 내가 권장하는 절차 일 것입니다. "이분산성을 제어하기 위해 무엇을 했는가? 그것이 어떻게 작동하는지 어떻게 알 수 있습니까?"

궁극적 인 참조는 Wu (1986) 이지만 Annals 는 그림책 읽기가 아닙니다.

의견에 표시된 OP의 후속 질문을 기반으로 한 업데이트 :

복제의 수는 나에게 크게 보였다. 내가 알고있는이 부트 스트랩 매개 변수에 대한 유일한 좋은 논의는 Efron & Tibshirani의 Intro to Bootstrap book에 있습니다.

나는 분포 가정의 부족에 대한 일반적으로 유사한 수정이 Huber / White 표준 오류로 얻을 수 있다고 생각합니다. Cameron & Triverdi의 교과서 는 부트 스트랩과 White의 이분산성 보정의 동등성에 대해 설명합니다. 동등성은 추정치에 대한 일반적인 견고성 이론에서 비롯됩니다 . 두 가지 수정은 유한 한 두 번째 잔차 모멘트의 최소 가정과 관측치 간의 독립성을 통해 분포 가정을 수정하는 것을 목표로합니다. 유한 샘플의보다 구체적인 비교에 대해서는 Hausman and Palmer (2012) 도 참조하십시오 ( 이 문서의 버전은 저자의 웹 사이트 중 하나에서 볼 수 있습니다)M부트 스트랩과 이분산성 보정의 비교.


도와 주셔서 정말로 고맙습니다! 하나의 후속 질문을 허용하십시오 : 내가 위반하는 유일한 가정은 오류의 정상적인 분포와 동성애 가정입니다. 또한 회귀 계수가 시그마인지 확인하는 데 관심이 있습니다. 예상 방향으로 또는 아니오. 효과의 크기는 중요하지 않습니다. 내가 지금까지 한 일은 귀하의 옵션 1이라고 생각합니다. 표준 오류를 부트 스트랩하고 부트 스트랩 신뢰 구간을 추가로 생성했습니다. Stata를 사용하여 vce (bootstrap, reps (2500) bca), estat bootstrap을 사용했습니다. 이것이 내 가정 위반을 치료합니까?
David

구문에 따라 데이터를 진단하지 않으며 아무도하지 않습니다. 데이터 세트의 크기는 얼마입니까? reps(2500)적어도 표준 오류에 대해서는 아마도 과잉 일 것입니다. reps(500)가장 실용적인 목적으로는 괜찮다고 생각 합니다. Efron & Tibshirani의 인트로 부트 스트랩 북 에는 반복 횟수에 대한 섹션이 있습니다. 그것들은 회귀에 관한 전체 장도 가지고 있으므로, 여러분이 볼 수있는 또 다른 좋은 참고 자료가 될 수 있습니다.
StasK

빠른 답변에 감사드립니다. 데이터 세트는 ~ 250입니다. 복제 횟수에 대한 질문은 (링크를 이용해 주셔서 감사합니다!) 부트 스트랩 된 표준 오류 (전체적으로 관찰을 리샘플링하는 방식으로) 및 / 또는 부트 스트랩 된 신뢰 구간 (예 : 백분위 수 또는 편향 보정)은 다음과 같습니다. 동질성 위반 및 오류 가정의 정규 분포를 고려할 때 회귀 계수의 중요성 (또는 그 부족)을 결정하는 적절한 방법? 입력 해 주셔서 감사합니다!
David

예, 더 좋습니다. Stata를 사용하면 robust회귀 옵션을 사용하여 매우 비슷한 대답을 얻을 수 있습니다. est store결과와 est tab, se그것들을 나란히 비교합니다.
StasK

StasK 감사합니다. 나는 또한 당신이이 사이트에서 다른 곳을 만들었다는 다음과 같은 의견을 보았습니다 : "리샘플링이있는 간단한 부트 스트랩 ⇔ 화이트의 이분산성 추정기". 위에서 설명한 내 질문의 맥락에서 :이 점을 지적하는 저널 기사가 있습니까?
David
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.