영향 함수 및 OLS


15

영향력 기능이 어떻게 작동하는지 이해하려고 노력하고 있습니다. 간단한 OLS 회귀와 관련하여 누군가 설명 할 수 있습니까?

yi=α+βxi+εi

대한 영향 함수 를 원합니다 .β


2
여기에는 구체적인 질문이 없습니다. 영향 함수가 어떻게 계산되는지 보시겠습니까? 구체적인 경험적 예를 원하십니까? 그것이 의미하는 것에 대한 경험적 설명?
whuber

1
Frank Critchley의 1986 년 논문 "주요 구성 요소에 영향을 미치는 기능"을 살펴보면 (종이의 정확한 이름을 기억할 수 없음). 그는 여기서 일반적인 회귀에 대한 영향 함수를 정의합니다 (내 대답이 잘못되었을 수도 있고 그렇지 않을 수도 있음).
chanceislogic

답변:


15

영향 함수는 기본적으로 통계 를 다시 계산하지 않고도 통계 값에 대한 관측치 제거 효과 (또는 "영향")를 평가하는 데 사용할 수있는 분석 도구입니다 . 또한 점근 적 분산 추정값을 작성하는 데 사용될 수도 있습니다. 영향이 경우 점근 적 분산은 입니다.I 2II2n

영향 함수를 이해하는 방법은 다음과 같습니다. 로 표시된 일종의 이론적 CDF가 있습니다. 간단한 OLS의 경우Fi(y)=Pr(Yi<yi)

Φ(Z)σ(2)S(F)FFF(I)(Z)=(1+ζ)F(Z)-ζδ(I)(Z)δI(Z)=I(YI을<z)ζ=1

Pr(Yi<yi)=Pr(α+βxi+ϵi<yi)=Φ(yi(α+βxi)σ)
여기서 는 표준 일반 CDF이고 는 오차 분산입니다. 지금 당신은 어떤 통계 따라서이 CDF의 함수 표기 될 것으로 보여 (즉, 일부 기능 ). 이제 기능 변경 가정 위해, "약간"으로 여기서 및 입니다. 따라서 는 "ith"데이터 포인트가 제거 된 데이터의 CDF를 나타냅니다. 우리는 테일러 시리즈를 할 수 있습니다Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)ζδ(i)(z)δi(z)=I(yi<z) F(I)F(I)(Z)ζ=0ζ=1n1F(i)F(i)(z) 약 . 이것은 다음을 제공합니다.ζ=0

S[F(i)(z,ζ)]S[F(i)(z,0)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

참고 우리가 얻을 수 있도록 : S [ F ( I ) ( Z , ζ ) ] S [ F ( Z ) ] + ζ [ S [ F ( I ) ( Z , ζ ) ]F(i)(z,0)=F(z)

S[F(i)(z,ζ)]S[F(z)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

여기서 부분 미분은 영향 함수라고합니다. 따라서 이는 "ith"관측치 삭제로 인한 통계에 대한 대략적인 "1 차"수정을 나타냅니다. 회귀 분석에서 나머지는 비대칭으로 0이 아니므로 실제로 얻을 수있는 변경 사항에 대한 근사치입니다. 이제 를 다음과 같이 작성하십시오.β

β=1nj=1n(yjy¯)(xjx¯)1nj=1n(xjx¯)2

따라서 베타는 X의 분산과 X와 Y의 공분산의 두 가지 통계 함수입니다.이 두 통계는 CDF와 관련하여 다음과 같이 표현됩니다.

v a r ( X ) = ( X μ x ( F ) ) 2 d F μ x = x d F

cov(X,Y)=(Xμx(F))(Yμy(F))dF
및 여기서
var(X)=(Xμx(F))2dF
μx=xdF

i 번째 관측 값을 제거하기 위해 두 적분에서 를 대체합니다 .FF(i)=(1+ζ)Fζδ(i)

μx(i)=xd[(1+ζ)Fζδ(i)]=μxζ(xiμx)
Var(X)(i)=(Xμx(i))2dF(i)=(Xμx+ζ(xiμx))2d[(1+ζ)Fζδ(i)]

용어를 무시 하고 단순화 : 공분산 ζ2

Var(X)(i)Var(X)ζ[(xiμx)2Var(X)]
Cov(X,Y)(i)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]

따라서 를 함수로 표현할 수 있습니다 . 이것은:β(i)ζ

β(i)(ζ)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]Var(X)ζ[(xiμx)2Var(X)]

이제 Taylor 시리즈를 사용할 수 있습니다 :

β(i)(ζ)β(i)(0)+ζ[β(i)(ζ)ζ]ζ=0

이것을 단순화하면 다음이 제공됩니다.

β(i)(ζ)βζ[(xiμx)(yiμy)Var(X)β(xiμx)2Var(X)]

그리고 , , 및 통계 값을 연결 하면 다음과 같은 결과 가 나타납니다.μyμxvar(X)ζ=1n1

β(i)βxix¯n1[yiy¯1nj=1n(xjx¯)2βxix¯1nj=1n(xjx¯)2]

그리고 모델을 다시 맞출 필요없이 단일 관측치 제거 효과를 어떻게 근사 할 수 있는지 확인할 수 있습니다. 또한 평균과 동일한 x 가 선의 기울기에 미치는 영향을 볼 수 있습니다 . 이것에 대해 생각하면 그것이 어떻게 이해되는지 알게 될 것입니다. 표준화 된 값 (y와 유사하게)으로 간결하게 작성할 수도 있습니다 .x~=xx¯sx

β(i)βxi~n1[yi~sysxxi~β]

이야기는 추가 데이터 포인트의 영향에 관한 것입니까? 시계열 데이터에 대한 임펄스 응답에 더 익숙해졌으며, 통계적 맥락에서 모든 영향은 표준화 된 회귀 분석에서 한계 효과 또는 (더 나은 선택) 베타 계수로 설명됩니다. 글쎄, 나는 질문과 대답을 판단하기 위해 더 많은 맥락이 필요하지만, 이것은 좋은 것입니다 (아직 +1이 아니라 기다리고 있습니다).
Dmitrij Celov

@dmitrij-그것이 링크에서 암시 된 것 (또는 내가 추론 한 것)입니다-그것은 통계의 견고성 속성에 관한 것입니다. 영향 함수는 1 데이터 포인트보다 약간 더 일반적입니다. 델타 함수를 합계로 정의 할 수 있습니다 (많은 관측치). 모델을 다시 장착 할 필요가 없기 때문에 어느 정도는 "저렴한 Jacknife"라고 생각합니다.
chanceislogic

10

회귀의 영향 함수에 대해 이야기하는 가장 일반적인 방법은 다음과 같습니다. 먼저 영향력 기능을 제시하는 한 가지 방법을 다룰 것입니다.

가 에 대한 분포 라고 가정합니다 . 오염 분포 함수 , 다음과 같이 정의 될 수있다 : 여기서 의 확률 측정 있는 양수인 확률 1 의 다른 모든 요소는 0 .FΣFϵ(x)

Fϵ(x)=(1ϵ)F+ϵδx
δxΣ{x}Σ

이것으로부터 우리는 영향 함수를 상당히 쉽게 정의 할 수 있습니다 :

영향 함수 의 에서 , 다음과 같이 정의된다 θ^Fψi:XΓ

ψθ^,F(x)=limϵ0θ^(Fϵ(x))θ^(F)ϵ

여기에서 그것은 영향 함수의 가토 유도체 인 것을 알 수있어 에서 방향 . 이렇게하면 영향 함수에 대한 해석이 조금 더 명확 해집니다. 영향 함수는 특정 관측 값이 추정기에 미치는 영향을 알려줍니다.θ^Fδx

OLS 추정치는 문제에 대한 해결책입니다.

θ^=argminθE[(YXθ)T(YXθ)]

관찰 에 약간 더 비중을 둔 오염 된 분포를 상상해보십시오 .(x,y)

θ^ϵ=argminθ(1ϵ)E[(YXθ)T(YXθ)]+ϵ(yxθ)T(yxθ)

1 차 주문 조건 :

{(1ϵ)E[XTX]+ϵxTx}θ^ϵ=(1ϵ)E[XTY]+ϵxTy

영향 함수는 단지 Gateaux 파생물이므로 이제 다음과 같이 말할 수 있습니다.

(E[XTX]+xTx)θ^ϵ+E[XTX]ψθ(x,y)=E[XTY]+xTy

앳 , : 그래서ϵ=0θ^ϵ=θ^=E[XTX]1E[XTY]

ψθ(x,y)=E[XTX]1xT(yxθ)

이 영향 함수의 유한 샘플 대응 물은 다음과 같습니다.

ψθ(x,y)=(1NiXiTXi)1xT(yxθ)

일반적으로이 프레임 워크 (Gateaux 파생물로서 영향 함수로 작업)가 다루기가 더 쉽다는 것을 알게되었습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.