표준화와 학생 화의 차이점은 무엇입니까?


21

표준화에서 분산이 알려져있는 반면, 학생 화에서는 알려지지 않았으므로 추정 되었습니까? 고맙습니다.


2
질문의 내용을 명확히하고 싶을 수도 있습니다. 어떤 종류의 표준화, 어떤 종류의 학생 화? 이 값들은 무엇에 사용됩니까?
russellpierce

3
잔차 에 대해 묻는다면 용어가 표준화 되지 않은 것 입니다. 다른 저자들은 같은 것에 대해 다른 이름을 사용하고 때로는 슬프게도 다른 것에 대해 같은 이름을 사용합니다. 내가 부르는이있다 (i)는 스케일링 (잔차를 (와이와이^나는)/에스 ,라는 표준화 된 몇몇 저자에 의해 잔류 물); (ii) 내부적으로 학생 화 된 잔존물 ( 일부 저자 / 패키지에 의해 표준화 되고 다른 사람에 의해 학생 화됨 ); (iii) 외부 학생 / 학생 삭제잔차
Glen_b-복지국 모니카

답변:


20

짧은 요약. 주어진 모델 , 여기서 X는N × P , β = ( X ' X ) - 1 X ' , YY = X β = X ( X ' X ) - 1 X ' , Y = H y , 여기서 H = X ( X ' X와이=엑스β+ε엑스×β^=(XX)1Xyy^=Xβ^=X(XX)1Xy=Hy 는 "모자 행렬"입니다. 잔차는 E = Y - Y = Y - H를 Y = ( I - H ) Y 모집단 분산 σ 2 알려지지 의해 추정 될 수 M S E , 평균 제곱 오차.H=엑스(엑스'엑스)1엑스'

이자형=와이와이^=와이H와이=(나는H)와이
σ2에스이자형

반 학생 잔차e * i = e i 로 정의됩니다. 하지만, 잔차의 분산 모두에 의존하기 때문에σ2X들은 추정 분산이다 :V(I)=MSE(1-HII) 여기서HI은 ISI번째 대각 원소 모자 매트릭스의.

이자형나는=이자형나는에스이자형
σ2엑스
V^(이자형나는)=에스이자형(1h나는나는)
h나는나는나는

내부 학생 잔차 라고도하는 표준화 잔차 는 다음과 같습니다.

아르 자형나는=이자형나는에스이자형(1h나는나는)

이자형나는에스이자형아르 자형나는나는1와이^와이^나는(나는)

나는=와이나는와이^나는(나는)
나는=이자형나는1h나는나는
엑스에스이자형엑스(나는)에스이자형(나는)나는tI의라고스튜던트(삭제)잔차또는외부 스튜던트 잔차.
ti=diMSE(i)1hii=eiMSE(i)(1hii)tnp1
ti

Kutner et al., Applied Linear Statistical Models , Chapter 10을 참조하십시오.

편집 : rpierce의 답변이 완벽하다고 말해야합니다. 나는 OP가 표준화되고 학생 화 된 잔차 에 관한 것이라고 생각했고 (그리고 표준화 된 잔차를 얻기 위해 인구 표준 편차로 나눈 것은 물론 나에게 이상하게 보였습니다), 나는 틀 렸습니다. OT라도 내 대답이 누군가를 도울 수 있기를 바랍니다.


2
...이 답변은 회귀 방정식에서 학생 잔차를 정의 할 때 정확합니다. 해당 표준화 잔차에 대한 정의는 없습니다. 회귀 프레임 워크는 질문에 적용되지 않는 것 같습니다. 그러나 이것은 여전히 ​​귀중한 기여입니다. +1
russellpierce

2
@ rpierce, 당신 말이 맞아요 : "학생"을 읽 자마자 "잔여 물"도 읽지 만, 그들은 단지 내 마음 속에있었습니다 .-) 죄송합니다. 마지막 클릭 후에 만 ​​감독을 보았습니다.
Sergio

9

사회 과학에서 일반적으로 Studentizated 점수는 표본 분산 / 표준 편차에서 모집단 분산 / 표준 편차를 추정하기 위해 Student 's / Gosset의 계산을 사용한다고합니다 (에스). 대조적으로, 표준화 된 점수 (명사, 특정 유형의 통계, Z 점수)는 모집단 표준 편차? (σ).

그러나 각 분야마다 약간의 용어 차이가있는 것으로 보입니다 (이 답변에 대한 의견 참조). 따라서 이러한 구분을 할 때주의를 기울여야합니다. 더욱이, 학생 화 된 점수는 거의 그렇게 불려지지 않으며 일반적으로 회귀의 맥락에서 '학생 화 된'값을 보게됩니다. @Sergio는 답변에 학생 유형의 삭제 된 잔차에 대한 세부 정보를 제공합니다.


2
Wikipedia 는 "이 용어는 같은 정도의 다른 통계량에 의한 고차 통계량의 표준화에도 사용됩니다. 예를 들어, 세 번째 중심 모멘트의 추정값은 표본 표준 편차의 큐브로 나누어 표준화됩니다. "
Nick Stauner

2
모집단 분산을 알 수없는 경우 Studentization이 표준화의 한 형태라고 말하는 것이 더 안전하다고 생각합니다. 이것은 일반적으로 널리 사용되는 용어에 대한 오해의 소지가 아닌 기술적이고 용어적인 구별 지점의 형태를 취합니다.
Nick Stauner

2
@ whuber : 질문의 맥락은 기본적이므로 기본 답변을주었습니다. 표준 점수 (Z)는 소개 통계와σ그들에게 주어집니다. 때때로 모집단 표준 편차 (예 : 10 명의 비결 측 데이터 인구 조사)가있는 경우가 있습니다.
russellpierce

2
@Nick 여러 당국이 "표준화"를 광범위하게 사용하지만 AFAIK (아카 이크)는 이러한 광범위한 의미에서 "학생"을 사용하지 않는다는 점을 고려할 때 좋은 해결책 인 것 같습니다.
whuber

2
@rpierce 두 번째 책 (Freedman, Pisani 및 Purves)은 5 가지 (대부분 변경되지 않은) 판을 통해 약 40 년 동안 사용되었으며 UC Berkeley의 소개 통계 과정의 텍스트로 시작되었습니다. 그것은 공중 보건뿐만 아니라 생각할 수있는 모든 분야를 다룹니다. 반면에, 그 강점 중 하나는 작고, 의미가 없거나, 지나치게 기술적 인 차이를 강조하지 않는 것입니다. 따라서 일반적으로 통계에 대한 좋은 가이드이지만 비전 문제를 해결하는 데 의존 할 수는 없습니다.
whuber

3

나는이 질문에 대답하는 데 매우 늦었다!. 그러나 매우 간단한 언어로 답을 찾을 수 없으므로 겸손하게 대답하십시오.

왜 우리는 표준화를합니까? 두 가지 모델이 있는데 하나는 통계를 연구하는 데 소요 된 시간에서 크 래잔을 예측하는 반면 다른 하나는 통계에 대한 시간을 사용하여 로그 (미량)를 예측한다고 가정합니다.

잔차가 모두 다른 단위임을 이해하기 어렵습니다. 그래서 우리는 그것들을 표준화합니다. (Z- 점수와 유사한 이론)

표준화 잔차 :-잔차를 표준 편차의 추정치로 나눈 경우. 일반적으로 절대 값이 3보다 크면 문제의 원인입니다.

이를 사용하여 모델의 특이 치를 조사합니다.

Studentized Residual : 모델의 안정성을 연구하기 위해 사용합니다.

과정은 간단합니다. 모델에서 개별 테스트 사례를 제거하고 새로운 예측값을 찾습니다. 표준 오차를 나누어 새로운 값과 원래의 관찰 값의 차이를 표준화 할 수 있습니다. 이 값은 Studentized Residual입니다

R을 사용하여 정적 정보를 더 알아 보려면 http://www.statisticshell.com/html/dsur.html


1

Wikipedia의 개요는 https://en.wikipedia.org/wiki/Normalization_(statistics)입니다 .

표준 점수 엑스μσ: 모집단 모수가 알려진 경우 오류 정규화. 정규 분포를 따르는 모집단에 적합

학생의 t- 통계 엑스엑스¯에스 : 모집단 모수를 알 수없는 경우 잔차 정규화 (추정).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.