로지스틱 회귀 분석 (SPSS)에서 이진이 아닌 범주 형 변수를 처리하는 방법


10

많은 독립 변수로 이진 로지스틱 회귀 분석을 수행해야합니다. 그것들은 대부분 이진이지만 범주 형 변수 중 일부는 두 개 이상의 수준을 가지고 있습니다.

그러한 변수를 다루는 가장 좋은 방법은 무엇입니까?

예를 들어 가능한 값이 세 개인 변수의 경우 두 개의 더미 변수를 만들어야한다고 가정합니다. 그런 다음 단계적 회귀 절차에서 두 더미 변수를 동시에 테스트하거나 개별적으로 테스트하는 것이 더 낫습니까?

SPSS를 사용하지만 잘 기억하지 못하므로 SPSS는이 상황을 어떻게 처리합니까?

또한 서수 범주 형 변수의 경우 서수 척도를 재현하는 더미 변수를 사용하는 것이 좋습니다? 예를 들어, 4- 상태 서수 변수에 3 개의 더미 변수를 사용 하면 , 및 4 레벨 대신 0-0-0레벨 , 레벨 2 , 레벨 3 및 레벨 4 를 입력하십시오.11-0-021-1-01-1-140-0-01-0-00-1-00-0-1


2
이것은 부분적인 대답 일뿐입니다. 소프트웨어의 암시 적 기능을 사용하지 않고 명시 적으로 인형을 작성하더라도 모든 분석에서 함께 유지하십시오. 특히 p- 값이 관련된 총 변수 수에 대해 적절히 계산 된 상태에서 모두 단계적으로 회귀하여 모두 함께 들어가야합니다. (이것은 어쨌든 Hosmer & Lemeshow의 추천이며, 의미가 있습니다.)
whuber


독립 변수에 대해 이야기하고 있습니다. 로지스틱 회귀 분석을 위해서는 이진이어야하는 종속 변수 만 있습니다.
John

1
여기서주의해야 할 것은 단계적 선택 절차를 전혀 사용하지 않아야한다는 것입니다. 유효하지 않습니다. 이것이 이해가되지 않거나 이유를 이해하려면 여기에서 내 대답을 읽는 데 도움이 될 수 있습니다 : algorithms-for-automatic-model-selection .
gung-Monica Monica 복원

답변:


10

UCLA 웹 사이트에는 익숙한 소프트웨어 유형별로 분류 된 모든 절차에 대한 유용한 자습서가 많이 있습니다. Annotated SPSS Output : Logistic Regression을 확인하십시오 .SES 변수는 이진이 아닌 범주 형입니다. SPSS가 자동으로 표시기 변수를 만듭니다. 기본 코딩을 변경하는 방법에 대한 특정 정보와 로지스틱 회귀에 대한 특정 페이지가 있는 SPSS 를 사용 하여 회귀의 범주 형 예측 변수 전용 페이지도 있습니다 .


7

로지스틱 회귀는 매우 유연한 방법입니다. 독립 변수 범주 형 변수로 쉽게 사용할 수 있습니다. 로지스틱 회귀를 사용하는 대부분의 소프트웨어에서는 범주 형 변수를 사용할 수 있습니다.

예를 들어, 범주 형 변수 중 하나가 온도를 세 가지 범주 (차가운 / 가벼운 / 뜨거운)로 정의한 온도라고 가정하겠습니다. 제안한 바와 같이 각각 1 또는 0의 값을 갖는 3 개의 개별 더미 변수로 해석 할 수 있습니다. 그러나 소프트웨어는 텍스트 값 cold / mild / hot 대신 단일 범주 형 변수를 사용할 수 있도록해야합니다. 그리고 로짓 회귀는 세 가지 온도 조건 각각에 대해 계수 (또는 상수)를 도출합니다. 중요하지 않은 경우 소프트웨어 또는 사용자가 t stat 및 p 값을 관찰 한 후 쉽게 꺼낼 수 있습니다.

범주 형 변수 범주를 단일 범주 형 변수로 그룹화하면 얻을 수있는 주요 이점은 모델 효율성입니다. 모델의 단일 열은 단일 범주 형 변수에 필요한만큼의 범주를 처리 할 수 ​​있습니다. 대신 범주 형 변수의 각 범주에 더미 변수를 사용하면 모델이 언급 된 대안을 고려하여 불필요한 많은 열을 갖도록 모델이 빠르게 커질 수 있습니다.


1
@gaetan 나는 단일 열 대 다중 열에 대한 언급을 이해하지 못합니다. 범주 형 변수는 더미 변수를 사용하는 대신 단일 열에 1, 2, 3 등으로 코딩되어야한다고 제안하고 있습니까? 당신이 leve1s 1과 2 사이의 dv에 미치는 영향의 차이가 레벨 2와 3 사이의 dv에 대한 영향의 차이와 동일하다는 암시 적 제약을 부과 할 때 나는 그것이 이해가되지 않습니다. 뭔가 빠졌습니다.

1
@Gaetan 나는 당신을 따라 확신하지 않습니다. XLStat가 추위, 경도 또는 고온의 '텍스트'값을 추정 목적으로 숫자 값으로 정확히 변환하는 방법은 무엇입니까? 더미 변수를 사용하지 않고 범주 형 변수의 영향을 추정 할 수있는 방법이있는 경우 기본 개념 / 모델 기반 논리가 있어야하므로 사용하는 소프트웨어와 독립적이어야합니다.

케이케이1

1
@Gatean Ok,이 경우 SPSS에서도 동일한 작업을 수행 할 수 있습니다 (각 변수에 대해 숫자 / 숫자 / 공칭 중에서 선택할 수 있음)-그에 따라 디자인 매트릭스가 구성됩니다.
chl

2
@Gaetan @chl 내 이해를 요약하면 : SPSS 및 XLStat의 기능으로 측정 스케일 (공칭, 서수 등)을 지정할 수 있으므로 데이터 파일 크기가 줄어 듭니다. 그러나, 두 경우 모두, 소프트웨어는 백그라운드에서의 추정 프로세스의 일부로서 정확한 코딩 방식 (예를 들어, J 카테고리를 갖는 공칭 변수를 J-1 더미 변수로 확장)을 사용한다. 상황에 대한 공정한 평가입니까?

0

내가 이해하는 한 범주 / 명목 데이터에 더미 변수를 사용하는 것이 좋으며 서수 데이터에는 다른 수준에 대해 1,2,3의 코딩을 사용할 수 있습니다. 더미 변수의 경우 특정 onservation에 해당하면 1을 코딩하고 그렇지 않으면 0을 코딩합니다. 또한 더미 변수는 no보다 1이 적습니다. 레벨에서, 예를 들어 이진수로 우리는 1을가집니다. 더미 변수에서 모든 '0'관찰은 코딩되지 않은 더미에 대해 자동으로 1을 만듭니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.