LASSO에서 범주 형 예측 변수를 처리하는 방법


17

범주 형 변수 예측 변수와 연속 형 예측 변수가있는 LASSO를 실행하고 있습니다. 범주 형 변수에 대한 질문이 있습니다. 내가 이해하는 첫 번째 단계는 각각을 인형으로 나누고 공정한 처벌을 위해 표준화 한 다음 회귀하는 것입니다. 더미 변수를 처리하기위한 몇 가지 옵션이 있습니다.

  1. 각 요인에 대해 모형 중 하나만 제외하고 모두 포함 시키십시오. 더미 계수의 해석은 제외 된 "참조"범주와 관련이 있습니다. 절편은 이제 참조 범주에 대한 평균 반응입니다.

  2. 각 요소에서 변수를 그룹화하여 모두 제외되거나 모두 포함되도록하십시오. 나는 그것이 @Glen_b가 여기에서 제안하는 것이라고 믿는다 .

    일반적으로 그렇습니다. 당신은 모든 요소를 ​​함께 유지합니다. glmnet을 포함하여이를 수행 할 수있는 여러 R 패키지가 있습니다.

  3. @Andrew M이 제안한 모든 레벨을 여기에 포함 시키 십시오 :

    기본 대비 기능을 변경하여 기본적으로 각 요인의 한 수준을 제거 할 수도 있습니다 (처리 코딩). 그러나 올가미 페널티로 인해 더 이상 식별에 필요하지 않으며 선택한 변수의 해석이 더 복잡해집니다. 이렇게하려면 설정

    contr.Dummy <- function(contrasts, ...){
       conT <- contr.treatment(contrasts=FALSE, ...)
       conT
    }
    options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
    

    이제 어떤 수준의 요인이 선택 되었든, 생략 된 모든 수준과 비교하여 이러한 특정 수준이 중요하다고 생각할 수 있습니다. 머신 러닝에서이 코딩은 one-hot encoding이라고합니다.

질문 :

  1. 이러한 각 접근 방식 에서 절편계수 의 해석은 무엇입니까 ?
  2. 그중 하나를 선택할 때 고려해야 할 사항은 무엇입니까?
  3. 더미 계수의 스케일을 해제 한 다음 오프에서 온으로의 변화로 해석합니까?

답변:


6

β

구체적인 질문에 대한 답변 :

(1) LASSO는 계수 의 추정 방법 이지만 계수 자체는 회귀의 초기 모형 방정식으로 정의됩니다. 따라서 계수의 해석은 표준 선형 회귀 분석과 동일합니다. 설명 변수의 변화로 인한 예상 응답의 변화율을 나타냅니다.

(2) 위의 문헌은 변수를 그룹화하지만 참조 범주를 유지하는 것이 좋습니다. 이것은 범주 형 변수의 존재를 제거하지만 여전히 절편 항이있는 모델과 비교하는 것으로 암시 적으로 가정합니다.

(3) 위에서 언급했듯이 추정 방법은 모델 설명에 의해 설정된 계수의 해석에 영향을 미치지 않습니다.


1
하트셉수트 :이 답변이 도움이되었다고 생각되면 찬성 및 / 또는 수락을 고려 하십시오. 그렇지 않은 경우 여전히 누락 된 부분을 표시 할 수 있습니까?
S. Kolassa-복원 Monica Monica

@StephanKolassa 님
Hatshepsut
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.