올가미 이전의 표준화가 정말로 필요한가?


28

Lasso회귀 와 같은 전에 변수를 표준화 해야하는 세 가지 주요 이유를 읽었습니다 .

1) 계수의 해석 성.

2) 수축 후 계수 추정치의 상대적 크기에 따라 계수 중요도를 평가하는 기능.

3) 가로 채지 않아도됩니다.

그러나 가장 중요한 점이 궁금합니다. 표준화가 모형의 표본 일반화를 향상시킬 것이라고 생각할만한 이유가 있습니까? 또한 모델에 인터셉트가 필요하지 않은 경우에는 신경 쓰지 않습니다. 하나를 추가해도 해가되지 않습니다.


1
설명 : "표준화가 선택적인 경우 (결과가 다른 크기로 왜곡되지 않는 특수한 경우 중 하나 인 경우) 표준화가 표본 외 일반화를 향상 시킵니까?" 이 올바른지?
Drew75

@ Drew75 나는 사례의 분류를 선호한다. 예를 들어 결과가 "다른 크기로 기울어 질 때"도움이되고 결과가 왜곡되지 않을 때 도움이 되는가?
Jase

1
그런 다음 귀하의 질문은 올가미에 관한 것이 아닙니다 (올가미 전에 일반적인 표준화가 필요하기 때문에). 더 일반적입니다. 아마도 질문의 제목과 첫 번째 문장을 변경하십시오.
Drew75

@Drew : 그것은 오히려 질문을하는 것입니다 : 왜 필요합니까? 결과를 왜곡한다는 것은 무엇을 의미합니까? 나는 질문이 괜찮다고 생각합니다.
Scortchi-Monica Monica 복원

@ Drew75 제 질문은 올가미에 관한 것입니다.
Jase

답변:


21

올가미 회귀 분석은 각 변수와 관련된 계수의 크기에 제약을 둡니다. 그러나이 값은 각 변수의 크기에 따라 다릅니다. 따라서 변수를 중심에두고 감소 시키거나 표준화해야합니다.

변수를 중심으로 한 결과 더 이상 절편이 없다는 것을 의미합니다. 그건 그렇고, 능선 회귀에도 동일하게 적용됩니다.

또 다른 좋은 설명은 다음 같습니다. 회귀 분석에서 데이터를 중앙에 배치하고 표준화해야 함


이것은 답변이 아니거나 내 질문에 대한 간접적 인 답변이 아닙니다. 답변과 샘플 일반화 (질문) 사이의 링크를 설명하십시오.
Jase

10
@Jase : 목록에서 생략 한 표준화 의 주된 이유를 설명합니다. 계수가 작은 예측 변수를 삭제하거나 계수 크기에 따라 페널티 항을 사용하려면 "소수" ". LASSO 또는 다른 불이익 회귀 분석법 이전에는 표준화가 필수는 아니지만 예측 변수가 측정되는 원래 척도가이 목적에 유용 할 경우는 거의 없습니다.
Scortchi-Monica Monica 복원

3
센터링에 대한 요점은 일반적으로 절편을 떨어 뜨리거나 축소하고 싶지 않다는 것입니다.
Scortchi-Monica Monica 복원

2
λ

2
전반적 으로 축소되는 양은 무작위 홀드 아웃 샘플에 대한 일반화에 영향을 미칩니다. 예측 변수를 다른 예측 변수에 비해 얼마나 많이 축소 할 것인지에 대한 다소 임의적 인 결정 은 계수가 약간 다르고 예측 변수의 분포가 훈련 세트의 분포와 반드시 같지 않은 유사한 모집단의 새로운 표본에 대한 일반화에 영향을 미칩니다. & c. (물론 귀하의 질문에 가치를보다 완벽하게 생각-OUT 대답.)
Scortchi - 분석 재개 모니카

2

L1 페널티 매개 변수는 절대 베타 항의 요약입니다. 변수가 모두 차원이 다르면 수학적으로 오류가 없더라도이 용어는 실제로 추가되지 않습니다.

그러나이 문제로 어려움을 겪고있는 더미 / 범주 변수는 보이지 않으며 표준화 할 필요가 없다고 생각합니다. 이를 표준화하면 변수의 해석 가능성이 줄어들 수 있습니다

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.