영향 함수는 기본적으로 통계 를 다시 계산하지 않고도 통계 값에 대한 관측치 제거 효과 (또는 "영향")를 평가하는 데 사용할 수있는 분석 도구입니다 . 또한 점근 적 분산 추정값을 작성하는 데 사용될 수도 있습니다. 영향이 경우 점근 적 분산은 입니다.I 2II2n
영향 함수를 이해하는 방법은 다음과 같습니다. 로 표시된 일종의 이론적 CDF가 있습니다. 간단한 OLS의 경우Fi(y)=Pr(Yi<yi)
Φ(Z)σ(2)S(F)FFF(I)(Z)=(1+ζ)F(Z)-ζδ(I)(Z)δI(Z)=I(YI을<z)ζ=1
Pr(Yi<yi)=Pr(α+βxi+ϵi<yi)=Φ(yi−(α+βxi)σ)
여기서 는 표준 일반 CDF이고 는 오차 분산입니다. 지금 당신은 어떤 통계 따라서이 CDF의 함수 표기 될 것으로 보여 (즉, 일부 기능 ). 이제 기능 변경 가정 위해, "약간"으로 여기서 및 입니다. 따라서 는 "ith"데이터 포인트가 제거 된 데이터의 CDF를 나타냅니다. 우리는 테일러 시리즈를 할 수 있습니다
Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)−ζδ(i)(z)δ나는( z) = 나( y나는< z) F(I)F(I)(Z)ζ=0ζ= 1n - 1에프( 나는 )에프( 나는 )( z) 약 . 이것은 다음을 제공합니다.
ζ= 0
에스[ F( 나는 )( z, ζ) ] ≈ S[ F( 나는 )( z, 0 ) ] + ζ[ ∂에스[ F( 나는 )( z, ζ) ]∂ζ|ζ= 0]
참고 우리가 얻을 수 있도록 :
S [ F ( I ) ( Z , ζ ) ] ≈ S [ F ( Z ) ] + ζ [ ∂ S [ F ( I ) ( Z , ζ ) ]에프( 나는 )( z, 0 ) = F( z)
에스[ F( 나는 )( z, ζ) ] ≈ S[ F( z) ] + ζ[ ∂에스[ F( 나는 )( z, ζ) ]∂ζ|ζ= 0]
여기서 부분 미분은 영향 함수라고합니다. 따라서 이는 "ith"관측치 삭제로 인한 통계에 대한 대략적인 "1 차"수정을 나타냅니다. 회귀 분석에서 나머지는 비대칭으로 0이 아니므로 실제로 얻을 수있는 변경 사항에 대한 근사치입니다. 이제 를 다음과 같이 작성하십시오.β
β= 1엔∑엔j = 1( y제이− y¯¯¯) ( x제이− x¯¯¯)1엔∑엔j = 1( x제이− x¯¯¯)2
따라서 베타는 X의 분산과 X와 Y의 공분산의 두 가지 통계 함수입니다.이 두 통계는 CDF와 관련하여 다음과 같이 표현됩니다.
v a r ( X ) = ∫ ( X − μ x ( F ) ) 2 d F μ x = ∫ x d F
c o v ( X, Y) = ∫( X− μ엑스( F) ) ( Y− μ와이( F) ) d에프
및
여기서
v a r ( X) = ∫( X− μ엑스( F) )2디에프
μ엑스= ∫x d에프
i 번째 관측 값을 제거하기 위해 두 적분에서 를 대체합니다 .에프→ F( 나는 )= ( 1 + ζ) F− ζδ( 나는 )
μx ( i )= ∫x d[ ( 1 + ζ) F− ζδ( 나는 )] = μ엑스− ζ( x나는− μ엑스)
Va r ( X)( 나는 )= ∫( X− μx ( i ))2디에프( 나는 )= ∫( X− μ엑스+ ζ( x나는− μ엑스) )2디[ ( 1 + ζ) F− ζδ( 나는 )]
용어를 무시 하고 단순화 :
공분산
ζ2
Va r ( X)( 나는 )≈ Va r ( X) − ζ[ ( x나는− μ엑스)2− Va r ( X) ]
씨o v ( X, Y)( 나는 )≈ Co v ( X, Y) − ζ[ ( x나는− μ엑스) ( y나는− μ와이) − Co v ( X, Y) ]
따라서 를 함수로 표현할 수 있습니다 . 이것은:β( 나는 )ζ
β( 나는 )( ζ) ≈ Co v ( X, Y) − ζ[ ( x나는− μ엑스) ( y나는− μ와이) − Co v ( X, Y) ]Va r ( X) − ζ[ ( x나는− μ엑스)2− Va r ( X) ]
이제 Taylor 시리즈를 사용할 수 있습니다 :
β( 나는 )( ζ) ≈ β( 나는 )( 0 ) + ζ[ ∂β( 나는 )( ζ)∂ζ]ζ= 0
이것을 단순화하면 다음이 제공됩니다.
β( 나는 )( ζ) ≈ β− ζ[ ( x나는− μ엑스) ( y나는− μ와이)Va r ( X)− β( x나는− μ엑스)2Va r ( X)]
그리고 , , 및 통계 값을 연결 하면 다음과 같은 결과 가 나타납니다.μ와이μ엑스v a r ( X)ζ= 1n - 1
β( 나는 )≈ β− x나는− x¯¯¯n - 1[ y나는− y¯¯¯1엔∑엔j = 1( x제이− x¯¯¯)2− β엑스나는− x¯¯¯1엔∑엔j = 1( x제이− x¯¯¯)2]
그리고 모델을 다시 맞출 필요없이 단일 관측치 제거 효과를 어떻게 근사 할 수 있는지 확인할 수 있습니다. 또한 평균과 동일한 x 가 선의 기울기에 미치는 영향을 볼 수 있습니다 . 이것에 대해 생각하면 그것이 어떻게 이해되는지 알게 될 것입니다. 표준화 된 값 (y와 유사하게)으로 간결하게 작성할 수도 있습니다 .엑스~= x − x¯¯¯에스엑스
β( 나는 )≈ β− x나는~n - 1[ y나는~에스와이에스엑스− x나는~β]