LASSO에 대한 인디케이터 / 바이너리 / 더미 예측 변수의 재조정 여부


30

LASSO (및 다른 모델 선택 절차)의 경우 예측 변수를 재조정하는 것이 중요합니다. 일반 추천 I 추적은 연속 변수의 0 평균, 1 개 표준 편차의 정상화를 사용하는 것입니다. 그러나 인형과 어떤 관련이 있습니까?

예를 들어 , 동일한 (우수한) 여름 학교의 일부 적용 예 는 연속 변수를 0과 1 사이로 조정하지만 (이상치에는 크지 않음) 아마도 인형과 비교할 수 있습니다. 그렇다고하더라도 계수가 동일한 차수 여야한다고 보장 할 수는 없으며, 따라서 재조정의 주요 이유는 아닙니다.


2
짧은 답변-아니오, 인형의 크기를 조정하지 마십시오
Affine

4
관련
julieth

@julieth, 감사합니다. 이후 답변을 찾으면 알려주십시오.
László

답변:


27

에 따르면 Tibshirani ( 올가미 방법의 VARIABLE SELECTION에서 COX 모델, 의학 통계, VOL. 16, 385-395 (1997) 그대로 정규화 방법에 대한 책을 썼다), 당신은 인형을 표준화해야한다. 그러나 계수에 대한 직접적인 해석 가능성을 잃게됩니다. 그렇지 않으면 변수가 고르지 않은 경기장에 있지 않습니다. 본질적으로 연속 변수에 유리하게 스케일을 기울입니다 (대부분 가능성이 높습니다). 따라서 기본 목표가 모델 선택 인 경우 심각한 오류입니다. 그러나 해석에 더 관심이 있다면 아마도 이것이 최선의 아이디어가 아닐 수도 있습니다.

권장 사항은 394 페이지에 있습니다.

올가미 방법은 회귀 자의 초기 표준화가 필요하므로 처벌 체계가 모든 회귀 자에게 공정합니다. 범주 형 회귀 분석의 경우 회귀 변수를 더미 변수로 코딩 한 다음 더미 변수를 표준화합니다. 그러나 심판이 지적한 바와 같이,이 체계에서 연속 변수와 범주 변수 사이의 상대적인 스케일링은 다소 임의적 일 수있다.


3
Tibshirani가 인형의 표준화를 제안하는 위치에 대한 정확한 참조를 제공 할 수 있습니까?
seanv507

@ seanv507 "... 하나는 회귀 변수를 더미 변수로 코딩 한 다음 더미 변수를 표준화합니다 ". 나는 rocrat의 설명이 맞다고 생각합니다. 일반적으로 인형을 포함한 모든 예측 자들이 벌칙에 대해 동일한 척도와 분산을 갖기를 원합니다.
Robert Kubrick 16:30에

1
@RobertKubrick 동의하지 않습니다. 정규화의 근본적인 이유는 작은 변화가 작은 영향을 미치기 때문입니다. 따라서 이상적인 경우는 모든 변수에 종속 변수가 포함 된 자연 물리적 스케일이 있고 정규화하지 않는 것입니다. 일반적으로 정확한 척도를 모르므로 정규화에 의존합니다. 그러나 범주 형 변수는 자연 척도, 즉 변수가 0 또는 1 일 가능성이 있습니다. 대부분의 시간이 0 인 변수가 0/1 사이의 변수보다 중요하지 않다고 주장합니다. 대신 Jeff의 대답이 적절 해 보입니다.
seanv507

8

Andrew Gelman의 블로그 게시물 인 회귀 입력을 표준화 할 때와 입력을 내버려 둘 때도 살펴볼 가치가 있습니다. 이 부분은 특히 관련이 있습니다.

모형 내에서 다른 예측 변수의 계수를 비교하기 위해 표준화하면 끄덕임을 얻습니다. (이진 입력을 표준화하지는 않지만 0/1로 코딩 한 다음 두 개의 표준 편차로 나눠서 다른 모든 숫자 입력을 표준화하여 0/1 변수와 거의 동일한 척도로 배치합니다.)


1
그리고 "이진 입력을 표준화하지 마십시오" 라고 말할 때 , 그는 일렬로 변수 그룹, 즉 범주 형 변수에 대한 더미를 의미하는 것 같습니다.
smci

2
계수 ( 즉, 해석) 비트를 비교하는 경우 에는 적합하지만 정규화 관점에서는 권장 사항이 그다지 의미가 없습니다. 이유는 이진 변수에 분산 있습니다. 의 경우 당신이 동일 분산 얻을 는 권고와 같은 규모의 넣어,하지만 당신은 점진적으로 낮은 분산을 얻을 이외. 최적화를 위해 표준화 한 다음 계수를 원래 스케일 imo로보고하는 것이 좋습니다. p = 0.5 0.25p(1p)p=0.50.25
Firebug

"두 표준 편차"는 무엇을 의미합니까? 이 입니까? x -> x / 2σ
Alex

신경 끄시 고, 모두 여기에서 설명하는 것 같다 : stat.columbia.edu/~gelman/research/unpublished/...
알렉스

3

이것은 더 많은 의견이지만 너무 깁니다. 올가미 (및 친구)에 가장 많이 사용되는 소프트웨어 중 하나는 R glmnet입니다. 도움말 페이지에서 다음에 의해 인쇄됩니다 ?glmnet.

표준화 : 모델 시퀀스를 맞추기 전에 x 변수 표준화를위한 논리 플래그. 계수는 항상 원래 스케일로 반환됩니다. 기본값은 'standardize = TRUE'입니다. 변수가 동일한 단위에 있으면 표준화하지 않을 수 있습니다. 'family = "gaussian"'을 사용한 y 표준화에 대한 자세한 내용은 아래를 참조하십시오.

standardize는 인수 중 하나이며 기본값은 true입니다. 따라서 변수는 일반적으로 표준화되며 여기에는 더미가 포함됩니다 (예외에 대한 언급이 없기 때문에). 그러나 계수는 원래 척도로보고됩니다.X

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.