범주 형 독립 변수 및 연속 종속 변수에 대한 회귀


20

방금 독립 변수가 항상 숫자 인 회귀 문제를 일으킨다는 것을 깨달았습니다. 모든 독립 변수가 범주 형인 경우 선형 회귀를 사용할 수 있습니까?

답변:


23

몇 가지 의미론과 명확성 :

  • 와 같은 회귀 공식에서 종속 변수 == 결과 == " y " y=β0+β1x1+β2x2+...+βkxk
  • 독립 변수 == 예측 변수 == 와 같은 회귀 공식에서 " " 중 하나 y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k x k엑스케이와이=β0+β1엑스1+β2엑스2+...+β케이엑스케이

따라서 대부분의 상황 에서 회귀 유형은 종속, 결과 또는 " "변수 의 유형에 따라 다릅니다와이 . 예를 들어, 종속 변수가 연속 일 때는 선형 회귀가 사용되며 종속 항목이 범주가 2 개인 범주 형일 경우 로지스틱 회귀 분석, 종속 항목이 범주가 2 개 이상인 범주 형일 경우 multinomi (n) al 회귀 분석이 사용됩니다. 예측 변수는 무엇이든 될 수 있습니다 (공칭 또는 순서 범주 형, 연속 형 또는 혼합형) .

(아래 설명은 중복 될 수 있지만 어쨌든 추가합니다)

그러나 대부분의 소프트웨어에서는 범주 형 예측 변수를 이진수 시스템으로 다시 코딩해야합니다 . 이것은 암컷의 경우 섹스를 0으로, 남성의 경우 1로 또는 그 반대로 코딩하는 것을 의미합니다. 2 개 이상의 수준 범주 형 변수의 경우에 이러한 코딩해야합니다 곳 더미 변수 수준의 수이고 그들이 해당 카테고리에있을 때이 인형은 0 또는 1이 포함되어 있습니다. 이런 식으로 각 개인 (샘플)은 자신이 속한 더미 변수에 대해 1을, 다른 사람에 대해서는 0을, 또는 참조 그룹의 일부인 경우 모든 인형에 대해 0을 가짐으로써 표현되어야합니다.L1


감사. 질문 제목에 쓸 때 종속 변수는 연속적입니다. 그래서 나는 당신이 "더미 인코딩을한다면 선형 회귀를 사용할 수 있습니다"라고 대답합니다. 내가 틀렸다면 정정 해주세요.
famargar

그렇습니다.
IWS

2
두 번째 질문을 추가하기 위해 질문을 편집하고 비슷한 질문을 여기에 게시했습니다 : stats.stackexchange.com/questions/267137/… . 또한 예측을 평활화하여 의미하는 것이 무엇인지, 불연속 값을 예측하여 의미하는 것이 무엇인지 묻습니다. AFAIK 선형 회귀 분석은 예측 변수 (회귀 수식을 통해)를 기반으로 연속성 평균값을 제공합니다. 자세히 설명하십시오
IWS

1
원래 질문에 완전히 대답하면 두 번째 질문을 삭제했습니다. 귀하의 질문에 대답하기 위해 새로운 "이벤트"( x i )를 모델에 공급하면 네 가지 회귀 값 중 하나를 취하는 n 개의 다른 y 값을 얻게됩니다. 범주 형 변수가 실제로 서수 인 경우 값 사이에 (logit?) 평활화를 도입하고 싶습니다. 엑스나는와이
famargar

1
서수 변수의 경우 항상 연속 예측 변수 인 것처럼 (단순을 사용하지 않고 변수를 숫자 버전으로 입력하여) 사용할 수있는 "연속적"이라고 항상 가정 할 수 있습니다. 그러나 이렇게 하고 레벨이 거의없는 경우 몇 점만으로 직선 (맞춤 성을 가정 함)을 맞추는 것입니다 (여기서 레벨의 양이 중요합니다). 리 커트 척도는 이런 식으로 사용 된 변수의 좋은 예입니다.
IWS
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.