범주 형 변수 예측 변수와 연속 형 예측 변수가있는 LASSO를 실행하고 있습니다. 범주 형 변수에 대한 질문이 있습니다. 내가 이해하는 첫 번째 단계는 각각을 인형으로 나누고 공정한 처벌을 위해 표준화 한 다음 회귀하는 것입니다. 더미 변수를 처리하기위한 몇 가지 옵션이 있습니다.
각 요인에 대해 모형 중 하나만 제외하고 모두 포함 시키십시오. 더미 계수의 해석은 제외 된 "참조"범주와 관련이 있습니다. 절편은 이제 참조 범주에 대한 평균 반응입니다.
각 요소에서 변수를 그룹화하여 모두 제외되거나 모두 포함되도록하십시오. 나는 그것이 @Glen_b가 여기에서 제안하는 것이라고 믿는다 .
일반적으로 그렇습니다. 당신은 모든 요소를 함께 유지합니다. glmnet을 포함하여이를 수행 할 수있는 여러 R 패키지가 있습니다.
@Andrew M이 제안한 모든 레벨을 여기에 포함 시키 십시오 :
기본 대비 기능을 변경하여 기본적으로 각 요인의 한 수준을 제거 할 수도 있습니다 (처리 코딩). 그러나 올가미 페널티로 인해 더 이상 식별에 필요하지 않으며 선택한 변수의 해석이 더 복잡해집니다. 이렇게하려면 설정
contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
이제 어떤 수준의 요인이 선택 되었든, 생략 된 모든 수준과 비교하여 이러한 특정 수준이 중요하다고 생각할 수 있습니다. 머신 러닝에서이 코딩은 one-hot encoding이라고합니다.
질문 :
- 이러한 각 접근 방식 에서 절편 과 계수 의 해석은 무엇입니까 ?
- 그중 하나를 선택할 때 고려해야 할 사항은 무엇입니까?
- 더미 계수의 스케일을 해제 한 다음 오프에서 온으로의 변화로 해석합니까?