순서 형 범주 형 변수를 독립 변수로 처리하는 방법


18

로짓 모델을 사용하고 있습니다. 내 종속 변수는 이진입니다. 그러나 범주 형이며 응답이 포함 된 독립 변수가 있습니다 1.very good, 2.good, 3.average, 4.poor and 5.very poor. 따라서 서수입니다 ( "정량적 범주 형"). 모델에서 이것을 처리하는 방법을 잘 모르겠습니다. 사용하고 gretl있습니다.

[@ttnphns의 참고 사항 : 문제는 모델이 로짓이라고 가정하지만 (종속적 독립 변수 인) 중요한 문제 는 기본적으로 종속적 범주 또는 양적입니다. 따라서이 문제는 로지스틱 회귀 또는 다른 로짓 모형과 마찬가지로 선형 회귀와 똑같이 관련이 있습니다.]


내 종속 변수는 0과 1의 값을 가지며, 6 개의 독립 변수가 있으며 그 중 3 개는 범주 형입니다. "해당 지역의 지역 보건 서비스를 어떻게 평가합니까? 귀하의 지역에서 현지 교통 수단을 어떻게 평가합니까? ?. 경찰 서비스는 해당 지역의 반응은 매우 좋은, 좋은 평균, 가난하고 매우 가난
rahmat

@Tim 종속 변수가 이진이면 서수 회귀가 필요하지 않습니다. 함의는 지표 (더미) 변수를 사용하여 서수 예측자를 처리하는 것입니다.
Nick Cox

고마워 팀, 내가 실수를하지 않으면 모든 카테고리에 대해 더미를 만들어야한다는 것입니다 ?? 예를 들어 하나의 불확실한 변수에 대해 5 가지 응답 (매우 좋음, 좋음, 평균, 가난함 및 매우 나쁨)이 있으므로 5 개의 인형을 만들어야합니다.
rahmat

답변:


14

순서 독립 변수 의 문제점 은 정의에 따라 해당 레벨 사이의 실제 메트릭 간격을 수 없기 때문에 없으므로 우산 "모노 닉"을 제외하고 적절한 유형 관계를 선험적으로 가정 할 수 없다는 것입니다. 예를 들어 "변이체를 선별하거나 조합하는 것"또는 "무엇을 최대화하는 것을 선호하는 것"과 같이 무언가를해야합니다.

리 커트 등급 IV를 서수 (간격 또는 명목이 아닌) 로 취급한다고 주장하면 대안이 있습니다.

  1. 다항식 대비 사용 즉, 모형에 사용 된 이러한 각 예측 변수는 선형뿐만 아니라 2 차 및 입방으로도 입력됩니다. 따라서 선형뿐만 아니라보다 일반적인 단조 효과를 포착 할 수 있습니다 (선형 효과는 스케일 / 간격으로 유지되는 예측 변수에 해당하고 다른 두 효과는 간격이 같지 않은 것으로 나타납니다). 또한 각 예측 변수의 모형을 입력하여 공칭 / 인수 효과를 테스트 할 수 있습니다. 결국, 예측 변수가 요인으로 작용하는 정도, 선형 공변량 및 비선형 공변량만큼을 알 수 있습니다. 이 옵션은 거의 모든 회귀 (선형, 로지스틱, 기타 일반화 된 선형 모형)에서 쉽게 수행 할 수 있습니다. df 를 소비합니다 하므로 샘플 크기가 충분히 커야합니다.
  2. 최적의 스케일링 회귀를 사용하십시오 . 이 접근법은 단조 적으로 서수 예측자를 구간 1로 변환하여 예측에 대한 선형 효과를 최대화합니다. CATREG (범주 회귀)는 SPSS에서이 아이디어를 구현 한 것입니다. 특정 사례의 한 가지 문제는 선형 회귀가 아니라 로지스틱을 수행하려고하지만 CATREG는 로짓 모델 기반이 아니라는 것입니다. 나는 당신의 예측이 2 범주 (이진)이기 때문에이 장애물이 상대적으로 작다고 생각합니다 : 나는 당신이 여전히 최적의 스케일링을 위해 CATREG를 수행 한 다음 반대 변환 된 스케일 예측 변수로 최종 로지스틱 회귀를 수행 할 수 있음을 의미합니다.
  3. 하나의 스케일 또는 서수 DV와 하나의 서수 IV Jonckheere-Terpstra 테스트 의 간단한 경우 에는 회귀 대신 합리적인 분석이 될 수 있습니다.

다른 제안들도있을 수 있습니다. 위의 세 가지는 바로 귀하의 질문을 읽은 것입니다.

다음 스레드도 방문하도록 권장하겠습니다. 공칭과 스케일 또는 순서 사이의 연관 ; 서수와 척도 사이의 연관 . 특정 회귀에 관한 것이 아니더라도 도움이 될 수 있습니다.

그러나 이러한 스레드는 회귀 분석에 대해 특히 물류 있습니다 : 당신이 내부에서 찾아야 하나 , , , , 다섯 .


(+1) (1) 처음 몇 개의 다항식 대비가 충분하다고 생각되면 사용할 수 있습니다. (2) 동일한 데이터 세트 의 응답 에서 예측 변수를 정의 하면 상태 경고가 표시되어야합니다. (3) 또한 인접한 레벨의 계수간에 불일치를 부과 할 수 있습니다 ( stats.stackexchange.com/q/77796/17230 참조) .
Scortchi-Monica Monica 복원

1
@ Scortchi, 의견 주셔서 감사합니다. (2)와 관련하여-물론, 특히 최종 회귀가 수행되는 데이터의 별도 하위 집합에서 최적의 스케일링을 수행하는 것이 더 안정적입니다. (3)-감사합니다. 나도 알게 될 것입니다.
ttnphns

1
다른 옵션은 aditive 모델을 사용하고 스플라인을 통해 서수 독립 변수를 나타내는 것입니다.
kjetil b halvorsen

2
@kjetilbhalvorsen, 예 가능합니다, 감사합니다. 그러나 서수 변수에 대한 최적 스케일링 방법 중 하나가 스플라인을 사용하기 때문에이 옵션은 Pt 2에 이미 내포되어 있습니다.
ttnphns

7

다른 훌륭한 해답을 추가하기 위해 : 현대적인 방법으로 처리하는 방법은 스플라인을 통해 서수 독립 변수를 나타내는 가산 모델을 통할 수 있습니다. 변수의 효과가 모노톤이라고 확신하면 모노톤 스플라인으로 제한 할 수 있습니다. 사용중인 모노톤 스플라인의 예는 S 자형 곡선에 맞는 함수 찾기를 참조하십시오 .

R에서 서수 예측 변수를 "순서 계수"(예 : 코드 포함 ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) )로 만들면 선형 모델에서는 직교 다항식을 통해 표시됩니다.


4
서수 예측 자와 함께 작동하는 방법에 대한 자세한 내용을 포함하여 조금 확장하면 좋을 것입니다.
ttnphns

0

k1케이


3
나는 일방적으로 (그리고 pedantically 또는 다른 방법으로) 당신의 작은 표기법의 사용을 바꿨습니다. 사소한 일이지만더 일반적으로 관찰 횟수이며, 초보자가 그러한 문제로 인해 혼란스러워하는 것을 종종 보았습니다.
Nick Cox

1
고마워 팀과 닉. 따라서 회귀 분석에서 네 개의 인형을 모두 실행해야합니다. 권리? 그렇다면 각각 5 개의 반응을 가진 3 개의 범주 형 변수가 있습니다. 따라서 내 모델에는 12 개의 변수가 있습니다. 권리?
rahmat

1
@NickCox에게 감사드립니다-저는 CV 세계에 처음 왔고 존중하는 수정에 감사드립니다
Austin T

1
불행히도 왜 더미 변수가 필요한지 설명하지 않았습니다. 나는이 답변이 현재의 방법에 관해서는 질문에 대한 답변으로 보인다고 생각하지 않습니다.
ttnphns

2
지원으로, 지표가 필요하다고 주장하는 경우는 아니라고 생각 합니다 . 비단 조적 관계를 포함하여 다양한 효과를 캡처 할 수 있다는 것입니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.