더미 변수 센터링 및 스케일링


13

범주 형 변수와 연속 변수가 모두 포함 된 데이터 세트가 있습니다. 범주 형 변수를 각 수준에 대한 이진 변수로 변환하는 것이 좋습니다 (예 : A_level1 : {0,1}, A_level2 : {0,1}). 일부는이 "더미 변수"라고합니다.

그렇게 말하면, 새로운 변수로 전체 데이터 세트를 중앙에 배치하고 스케일링하는 것이 오해의 소지가 있습니까? 마치 변수의 "켜기 / 끄기"의미를 잃는 것처럼 보입니다.

오해의 소지가있는 경우 연속 변수를 개별적으로 중앙에 배치하고 스케일을 조정 한 다음 데이터 세트에 다시 추가해야합니까?

티아.


1
더미 변수의 중심 및 / 또는 스케일 조정이 허용 가능한지 또는 합리적인지 여부는 응용 프로그램, 계획중인 분석 및 작업 별 고려 사항에 따라 다릅니다. 따라서 정답은 하나도 없습니다. 가장 일반적으로 거친 공식은 예측 변수 더미 변수로 수행하는 것이 좋습니다. 응답 더미 변수 또는 군집화 또는 요인 분석과 같은 다변량 방법을 사용하는 것은 종종 나쁜 생각입니다.
ttnphns

답변:


13

회귀 분석에 사용할 더미 변수를 구성 할 때 범주 변수의 범주를 제외한 각 범주는 이진 변수를 가져와야합니다. 따라서 A_level2, A_level3 등이 있어야합니다. 범주 중 하나에 이진 변수가 없어야하며이 범주는 참조 범주로 사용됩니다. 범주 중 하나를 생략하지 않으면 회귀 분석이 제대로 실행되지 않습니다.

SPSS 또는 R을 사용하는 경우 전체 소프트웨어 세트의 스케일링 및 중심 조정이 일반적으로 문제가되지 않을 것이라고 생각합니다. 이러한 소프트웨어 패키지는 종종 두 레벨을 가진 변수를 요인으로 해석하지만 사용 된 특정 통계 방법에 따라 달라질 수 있습니다 . 어쨌든 이진 (또는 범주 형) 변수를 스케일링하고 중심에 맞추는 것은 의미가 없으므로 연속 변수를 중심으로 스케일링해야합니다.


2
내 강한 느낌은 실제로 OP 질문에 대답하는 대답의 유일한 부분은 마지막 문장입니다-그 부분은 설명되지 않습니다. 규모를 조정하지 말고 이유를 설명하지 마십시오. 한편, 주제는 그리 쉽지 않습니다.
ttnphns

범주 형 변수를 코딩하는 유일한 방법입니다. 전체 답변을 작성할 시간이 없지만 "대비"를 검색하면 도움이 될 수 있습니다. 관련 답변은 stats.stackexchange.com/questions/60817/…
user20637

3

R을 사용하고 더미 변수 또는 0 또는 1을 갖는 변수를 0과 1 사이의 스케일로만 스케일링하면 이러한 변수의 값이 변경되지 않고 나머지 열의 스케일이 조정됩니다.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

재미있는 팁. 공유해 주셔서 감사합니다. 내가 요청한 이후로 시간이 오래 걸렸지 만이 오래된 게시물에서 여전히 배울 수 있습니다.
user2300643

3

회귀 중심의 평균점은 절편을 더 해석하기 쉽게 만드는 것입니다. 즉, 회귀 모델에서 모든 변수의 중심을 의미하는 경우, 절편 (SPSS 출력의 상수라고 함)은 결과 변수의 전체 평균과 같습니다. 최종 모델을 해석 할 때 편리 할 수 ​​있습니다.

더미 변수를 중심으로 의미하는 것과 관련하여 회귀 모델 (내 경우에는 3 레벨의 무작위 블록 설계 다중 레벨 모델)에서 더미 변수를 중심으로 한 평균에 대해 내 교수와 대화를 나누었고 테이크 아웃은 더미 변수는 회귀 계수의 해석을 실제로 변경하지 않습니다 (솔루션이 완전히 표준화되지 않은 경우 제외). 일반적으로 회귀 분석에서는 실제 단위 레벨 평균 중심 값을 해석 할 필요가 없으며 계수 만 있습니다. 그리고 이것은 본질적으로 변하지 않습니다-대부분. 그녀는 인형이 이해하기에 직관적이지 않은 표준화되어 있기 때문에 약간 변경되었다고 말했다.

주의 사항 : 교수 사무실을 떠났을 때의 이해였습니다. 물론 잘못했을 수도 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.