패널 / 세로 데이터를 사용하여 회귀 데이터를 표준화하는 것이 좋은 방법입니까?


16

일반적으로 계수를 올바르게 비교하기 위해 회귀 분석에서 독립 변수를 표준화합니다 (이렇게하면 동일한 단위 (표준 편차)를 갖습니다). 그러나 패널 / 세로 데이터를 사용하면 특히 계층 적 모델을 추정 할 때 데이터를 어떻게 표준화해야하는지 잘 모르겠습니다.

그것이 잠재적 인 문제가 될 수있는 이유를 보려면, 개인이 t = 1 , , T 주기를 따라 측정되었고 종속 변수 y i , t 및 하나의 독립 변수 x i , t 를 측정 했다고 가정합니다 . . 풀 풀링 회귀 분석을 실행하면 다음과 같은 방식으로 데이터를 표준화해도됩니다. x . z = ( x 평균 ( x ) ) / sd ( xi=1,,nt=1,,Tyi,txi,t , 그것은 t-통계를 변경하지 않습니다 때문이다. 반면 풀링되지 않은 회귀 (즉, 각 개인에 대해 하나의 회귀)를 맞추는 경우 전체 데이터 집합이 아닌 개인별로 데이터를 표준화해야합니다 (R 코드).x.z=(xmean(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

그러나 개인에 따라 다양한 절편이있는 단순 계층 모델에 적합하면 축소 추정기를 사용하는 것입니다. 즉, 풀링 된 풀링과 풀링되지 않은 회귀 간 모델을 추정하는 것입니다. 데이터를 어떻게 표준화해야합니까? 풀링 된 회귀처럼 전체 데이터를 사용합니까? 풀링되지 않은 경우처럼 개인 만 사용합니까?

답변:


10

표준화는 일반적인 회귀 또는 세로 형 모델에서 좋은 아이디어임을 알 수 없습니다. 예측을 얻기가 더 어려워지고 일반적으로 해결해야하는 문제를 해결하지 못합니다. 그리고 모형에 x 2 가 있다면 어떨까요? x 2를 어떻게 표준화 합니까? 모델에 연속 변수와 이진 변수가 있으면 어떻게됩니까? 이진 변수를 어떻게 표준화합니까? 낮은 유병률 변수가 더 중요한 표준 편차에 의한 것은 아닙니다.xx2x2

일반적으로 의 원래 척도로 모델 효과를 해석하는 것이 가장 좋습니다 .x


@ 프랭크 하렐 (Frank Harrell)-윤곽선 조건과 관련된 문제에 대한 좋은 점이지만 스케일이 다른 모든 연속 변수가있는 경우 슬로프를 비교할 수있는 유일한 방법은 표준화가 아닙니까?
DQdlM

1
@ Frank, 실행중인 모델 유형에 따라 다르지만 예측 변수의 표준화가 종종 유용합니다. 그것들을 중심에 두는 것은 평균 예측 결과와 다른 예측 변수의 상대적 중요성이 더 분명 해짐에 따라 절편을 해석 할 수 있음을 의미합니다. 나는 일반적으로 이진 예측 변수를 그대로 두지 만 때로는 다른 스케일링 옵션을 고려할 가치가 있습니다. 마지막으로, 표준 편차가 크게 다른 예측 변수가있는 경우 계산 / 수렴 문제가 발생할 수 있습니다.
Michael Bishop

2
R2χ2

1
이진 변수가있는 경우 표준화하지 말고 연속적인 변수 만 표준화하십시오. Gelman (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf > 의이 기사를 참조하십시오 . 변수를 두 가지 표준 편차로 나눈다는 제안입니다.
노엘 갈 디노

xx2

0

다른 척도로 측정 된 변수를 동일한 메트릭으로 가져 오기위한 표준화 대안이 있습니다. 이것을 POMS (Proportion of Maximum Scaling)라고하며 z 변환이 수행되는 경향이 있으므로 다변량 분포를 혼동하지 않습니다.

Todd Little은 종단 구조 방정식 모델링에 대한 그의 책에서 z 표준화에 대한 POMS를 명시 적으로 권장합니다. Z- 변환에는 종단 데이터를 처리 할 때 추가 문제가 발생합니다. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.