“X에서 오류”모델이 더 널리 사용되지 않는 이유는 무엇입니까?


11

회귀 계수의 표준 오차를 계산할 때 설계 행렬 의 무작위성을 고려하지 않습니다 . 예를 들어 OLS에서는 를Xvar(β^)var((XTX)1XTY)=σ2(XTX)1

경우 무작위로 간주되었다, 총 분산의 법은 어떤 의미에서의 분산의 추가 기여를 요구할 것 뿐만 아니라. 즉XX

var(β^)=var(E(β^|X))+E(var(β^|X)).

OLS 추정값이 진정으로 편향되지 않은 경우 첫 번째 용어는 기대 값이 일정하기 때문에 사라집니다. 두 번째 용어는 실제로 됩니다.σ2cov(X)1

  1. 대한 모수 모델을 알고 있다면 를 실제 공분산 추정값으로 대체하지 않겠습니까 ? 예를 들어, 가 무작위 처리 할당 인 경우 이항 분산 가 더 효율적인 추정값이어야합니까?XXTXXE(X)(1E(X))

  2. 왜 우리는 OLS가 추정에서의 바이어스의 가능한 원인을 추정하는 유연한 비모수 적 모델을 사용하여 고려하지과 디자인에 대한 민감도 (의 예 분포를 차지 제대로 않습니다 최초의 법의-총 분산의 임기) ?Xvar(E(β^|X))


2
수학적 법칙이 왜 어떤 것을 "요구"하는가? 우리는 모델을 사용하여 특정 목표를 해결하기 위해 데이터로 추론합니다. 그는 관찰 또는 측정 값에 따라 조건부 응답 이해하거나 예측하는 경우 의 변화 전혀 (아무것도 경우) 실질적인 문제와 함께 할 작은 것 - 실제로, 우리의 절차에서이 변화를 통합하는 것 같다 완전히 틀리거나 오해의 소지가 있거나 심지어 무의미합니다. 따라서 귀하의 질문에 대답하는 것은 다양한 종류의 통계 문제가 발생하는 빈도를 평가하는 것으로 보입니다. XX,X
whuber

1
@whuber 내 초점은 추론에 있습니다. 총 분산의 법칙은 연구 결과의 빈번한 해석과 더 일치하는 것으로 보입니다. 우리는 종종 연구가 복제 된 경우 의 분포 가 다를 수 있다는 사실을 고려하지 않고 "연구가 복제 된 경우"에 대해 이야기 합니다. 성별 균형은 한 표본에서 40 %, 다른 표본에서 60 % 일 수 있습니다. 아이러니하게도, 부트 스트랩은이를 반영하지만 특정 공변량 조합에 대한 결과에 변동성을 생성 하지 않습니다 . X
AdamO

2
첫째, 많은 연구에서 를 실험 제어하에 두었 으므로 무작위는 아닙니다. 둘째, 관측 연구 ( 가 랜덤 인 경우)는 종종 의 조건부 분포에 대한 추론에만 관심이 있습니다 따라서 추론에 초점을 두는 것은 한 상황을 다른 상황과 구별하지 않습니다. 전체 (공동) 분포에 관심이있는 경우 많은 사람들이 상관 관계 분석 또는 다양한 다변량 절차에 의존합니다. "이"부트 스트랩과 같은 것은 없습니다.이 상황에서 재 샘플링 방법은 모델뿐만 아니라 목표에 따라 달라지기 때문입니다. X Y .XXY.
whuber

1
@whuber 실험 제어 연구 시작 시점에서 무작위로 할당됩니다. 내가 언급했듯이, 이것은 무작위 사례가 Bernoulli라고 말합니다. 경험적으로 추정되는 사용하는 이유는 무엇 입니까? 최대 가능성 사용 : ? 부트 스트랩에 대해 맞습니다. 나는 데이터의 "행"이 대체로 샘플링되는 비모수 적 (무조건적) 부트 스트랩을 언급했습니다. cov ( X ) = E ( X ) ( 1 - E ( X ) )cov(X)=XTXcov(X)=E(X)(1E(X))
AdamO

2
특히, 변칙적 인 경우 외부는 정말 문제가 있다면하지 않습니다 있을 경우 무작위, 어떤 중요한 것은 측정 오류 에 . 그렇다면 OLS 방법으로 인해 추정값이 . 이 경우 변수 방법의 오류를 사용해야합니다. X 1 β 1X1X1β1
gung-모니 티 복원

답변:


8

귀하의 질문 (의견에 대한 추가 논평)은 연구원이 일부 무작위 설계에 따라 설명 변수 중 하나 이상을 무작위로 할당하는 무작위 통제 시험이있는 경우에 주로 관심이있는 것으로 보입니다. 이러한 맥락에서 설명 변수를 무작위 화에 의해 부과 된 샘플링 분포에서 무작위 변수로 취급하지 않고 설명 변수를 알려진 상수로 처리하는 모델을 사용하는 이유를 알고 싶습니다. (귀하의 질문은 이것보다 광범위하지만 이것은 해설에 대한 주요 관심사 인 것처럼 보이므로 이것이 내가 다룰 것입니다.)

우리가 설명 변수를 조건화하는 이유는 RCT에 대한 회귀 문제 에서 예측 변수가 주어진 응답 변수 의 조건부 분포 에 여전히 관심이 있기 때문 입니다. 실제로, RCT에서 우리는 설명 변수 가 반응 변수 에 미치는 원 인적 영향 을 결정하는 데 관심이 있으며 , 이는 조건부 분포에 대한 추론을 통해 결정할 것입니다 (혼동을 막기 위해 일부 프로토콜에 따라). 무작위 화는 설명 변수 와 혼동되는 변수 사이의 의존성을 깨뜨리기 위해 부과됩니다 (즉, 백도어 연관 방지). XYX 그러나 문제의 추론의 대상은 여전히 설명 변수가 주어지면 응답 변수 의 조건부 분포 입니다. 따라서, 아직 추론에 대한 좋은 특성이 추정 방법 사용이 조건부 분포의 매개 변수를 추정하는 것이 합리적 조건부 분포를 .

이것이 회귀 기술을 사용하여 RCT에 적용되는 일반적인 경우입니다. 물론, 우리가 다른 관심사를 가지고있는 상황이 있으며, 실제로 설명 변수에 대한 불확실성을 통합하고 싶을 수도 있습니다. 설명 변수에 불확실성을 포함시키는 것은 일반적으로 두 가지 경우에 발생합니다.

  • (1) 회귀 분석을 넘어서 다변량 분석으로 넘어갈 때 우리 는 전자에 주어진 후자의 조건부 분포보다는 설명 및 반응 변수 의 공동 분포에 관심이 있습니다. 이것이 우리의 관심사 인 응용 프로그램이있을 수 있으므로 회귀 분석을 넘어 설명 변수의 분포에 대한 정보를 통합합니다.

  • (2) 일부 회귀 응용에서 우리의 관심은 관찰되지 않은 설명 변수에 조건부 응답 변수의 조건부 분포에 있으며, 여기서 우리는 관찰 된 설명 변수에 오류가 있다고 가정합니다 ( "변수 오류"). 이 경우 우리는 "변수 오류"를 통해 불확실성을 통합합니다. 그 이유는 이러한 경우에 대한 우리의 관심 은 관찰되지 않은 기본 변수에 조건부 인 조건부 분포에 있기 때문입니다 .

두 경우 모두 회귀 분석보다 수학적으로 더 복잡하므로 회귀 분석을 사용하여 벗어날 수 있다면 일반적으로 바람직합니다. 어쨌든 대부분의 회귀 분석 적용에서 목표는 관찰 가능한 설명 변수가 주어지면 반응의 조건부 분포에 대해 추론하는 것이므로 이러한 일반화는 필요하지 않습니다.


무작위 화는 원인 변수를 혼란 변수에서 무작위 변수로 분리하지만, 무작위 변수에서 혼란 변수로의 원인 반응을 분리하지는 않습니다. 이는 인과 분석에서 모든 백도어 연관을 완전히 분리하기 위해 다른 프로토콜 (예 : 위약, 눈가림 등)이 필요할 수 있음을 의미합니다.


2
좋은 대답입니다. 당신이 가우시안 오류 -에 - 변수와 가우스 오류에 응답 정상적인 회귀 방법 일 이상을 가지고이 문제가되면 내가 AFAIK 것을 추가 할 경우에만 당신) 오류 B 않고 관찰 응답) 다른 응답 분포가있는 경우
마틴 Modrák

2

조건 변수 응답을 모델링 할 때, 즉 회귀 모수에 대한 추론 에서 X 의 변동을 고려하지 않는 이유에 대한 질문에서 "변수의 오류"라는 제목과 질문의 내용이 다르게 보입니다 . 이 두 가지 선입견은 나에게 직교하는 것처럼 보이므로 여기서 내용에 응답합니다.

나는 비슷한 질문에 대답했다. 회귀 자의 조절과 그것들을 고정 된 것으로 취급하는 것의 차이점은 무엇인가? 따라서 여기에 답변의 일부를 복사합니다.

(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψXθ=(β,σ2)(θ,ψ)Θ×Ψ

Xfψ(x)Yfθ(yX=x)θXθ

θfψ(x)xθθX=x

설계된 실험에서 그 가정은 대부분 관측 데이터와는 달리 대부분 유지 될 것이다. 문제의 예는 예측 변수로 지연된 응답을 사용한 회귀입니다. 이 경우 예측 변수를 조정하면 반응도 조정됩니다! (나는 더 많은 예제를 추가 할 것이다).

§4.3


θXθXθ

이 분리 주장은 예측할 수없는 응답이있는 회귀와 같이 사용할 수없는 경우를 가리 키기 때문에 유용합니다.


1
XYθψ

나는 PLS에 대해 잘 모르지만, 그것에 대해 생각하려고합니다
할보 르센 kjetil B

1
좋은 답변! ...
Richard Hardy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.