아니오, 학생 화 된 잔차와 표준화 된 잔차는 서로 다르지만 관련된 개념입니다.
사실 R은 제공합니까 내장 함수 rstandard()
와 rstudent()
의 일환으로 influence.measures . 동일한 내장 패키지는 레버리지, Cook의 거리 등을 위해 많은 유사한 기능을 제공하며 rstudent()
기본적으로와 동일합니다 MASS::studres()
.
> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE
표준화 잔차 는 해당 포인트의 활용 / 영향을 고려한 특정 데이터 포인트에 대한 오류를 추정하는 방법입니다. 이를 때때로 "내부적으로 학생 화 된 잔차"라고합니다.
아르 자형나는=이자형나는s (이자형나는)=이자형나는미디엄에스이자형( 1 −h나는 내가)−−−−−−−−−−−√
표준화 된 잔차의 동기는 모델이 고정 분산 으로 iid 오류 항이있는 동질성을 가정하더라도 분포, 잔차 는 iid가 될 수 없기 때문에 잔차의 합은 항상 정확히 0입니다.ϵ나는~ N ( 0 ,σ2)이자형나는
주어진 데이터 포인트에 대한 스튜던트 화 된 잔차 는 해당 데이터 포인트를 제외한 다른 모든 데이터 포인트에 대한 모형 적합으로부터 계산됩니다 . 이를 "외부 적으로 학생 화 된 잔차", "삭제 된 잔차"또는 "잭나이프 잔차"라고합니다.
계산이 어렵게 들리지만 ( 모든 포인트에 대해 하나의 새 모델에 맞아야 하는 것처럼 들리지만 ) 실제로 원래 모델에서 다시 계산하지 않고 계산할 수있는 방법이 있습니다. 표준화 잔차가 인 경우, 스튜던트 화 된 잔차 는 다음과 같습니다.아르 자형나는티나는
티나는=아르 자형나는(n - k - 2n − k − 1 −아르 자형2나는)1 / 2,
학생 화 된 잔차 배후의 동기는 이상치 테스트에서의 사용에서 비롯됩니다. 점이 특이 치라고 생각되면 가정 된 모델에서 정의에 의해 생성되지 않습니다. 따라서 모형의 피팅에 해당 이상 치를 포함시키는 것은 실수 (가정 위반) 일 수 있습니다. 학생 화 된 잔차는 실제 이상 값 탐지에 널리 사용됩니다.
스튜던트 화 된 잔차는 또한 각각의 데이터 포인트에 대해 , 원래 회귀 모델의 정규성 가정이 충족되었다고 가정 할 때 잔차 의 분포 가 스튜던트 t- 분포 의 바람직한 특성을 갖는다 . 표준화 잔차는 분포가 좋지 않습니다.
마지막으로, R 라이브러리가 위와 다른 명명법을 따를 수 있다는 우려를 해결하기 위해 R 문서 는 위에서 설명한 것과 정확히 동일한 의미로 "표준화"및 "학생 화"를 사용한다고 명시합니다.
기능 rstandard
과 rstudent
표준화 및 잔차 잔차를 각각 제공합니다. (이는 오차 분산의 전체 및 일회성 측정을 사용하여 단위 분산을 갖도록 잔차를 다시 정규화합니다 .)
R
용어는 Montgomery, Peck 및 Vining (35 년 동안 널리 사용 된 회귀 교과서)과 반대입니다. 따라서R
용어의 의미에 의존하기보다는 문서와 필요한 경우 소스 코드 를 연구해야합니다 .