능선 회귀 분석 표준화에 관한 질문


17

이봐, 난 능선 회귀를 사용하는 하나 또는 두 개의 논문을 찾았습니다 (농구 데이터). 능선 회귀 분석을 실행하면 항상 변수를 표준화하라는 지시를 받았지만, 능선은 척도 변형이기 때문에 간단하게 지시를 받았습니다.

내가 읽은이 논문은 변수를 표준화하지 않았기 때문에 조금 놀랍습니다. 그들은 또한 교차 검증을 통해 큰 람다 값 (2000-4000 수준)으로 끝났으며 이는 변수를 표준화하지 않기 때문이라고 들었습니다.

변수를 표준화되지 않은 상태로두면 람다 값이 높아지고 일반적으로 변수를 표준화하지 않은 결과는 무엇입니까? 정말 그렇게 큰 일입니까?

도움을 주시면 감사하겠습니다.

답변:


18

릿지 회귀는 계수 크기에 페널티를 부과하여 선형 회귀를 정규화합니다. 따라서 계수는 0과 서로를 향해 줄어 듭니다. 그러나 이런 일이 발생하고 독립 변수의 배율이 같지 않으면 축소가 불공평합니다. 스케일이 지정된 항이 모든 계수의 제곱의 합이므로 스케일이 다른 두 개의 독립 변수가 처벌 된 항에 다른 기여를합니다. 이러한 종류의 문제를 피하기 위해 종종 독립 변수는 분산 1을 갖기 위해 중심에 맞춰지고 크기가 조정됩니다.

[나중에 댓글을 달려면 수정하세요]

h이자형나는h

람다에 대한 벌칙은 주어진 상수보다 작거나 같은 제곱 계수의 합에 대한 제곱 손실 함수를 표현하는 것과 동일합니다. 즉, 람다가 클수록 계수의 제곱합에 많은 공간을 제공하고 람다를 낮추면 더 작은 공간을 의미합니다. 더 크거나 작은 공간은 계수의 더 크거나 작은 절대 값을 의미합니다.

표준화를 사용하지 않으면 모형에 적합하기 위해 계수의 절대 값이 크게 필요할 수 있습니다. 물론 모델에서 변수의 역할로 인해 자연스럽게 큰 계수 값을 가질 수 있습니다. 내가 말하고있는 것은이 값이 스케일링되지 않기 때문에 인위적으로 팽창 된 값을 가질 수 있다는 것입니다. 따라서 스케일링은 또한 큰 계수 값의 필요성을 줄입니다. 따라서, 람다의 최적 값은 일반적으로 더 작으며, 이는 계수의 제곱 값의 작은 합에 해당한다.


감사. 표준화가 어떻게 교차 검증을 통해 더 높은 추정 테스트 오류로 이어지지 않아서 더 많은 람다가 필요했을까요?
l_davies93

나는 대답에 내 생각을
덧붙였다

이 질문은 오래된 질문이지만 데이터를 킬로미터에서 미터로 변환하면 튜닝 매개 변수가 커지는 이유를 설명 할 수 있습니다.
Leo96

1

4 년 늦었지만 누군가가 이것으로부터 혜택을 받기를 바랍니다 .... 내가 이해 한 방식은 coeff는 독립 변수 (dy / dx)의 단위 변화에 대한 목표 변수 변화의 양입니다. 체중과 신장의 관계를 연구하고 체중이 kg으로 측정되었다고 가정합시다. 키로 킬로미터를 사용하면 대부분의 데이터 포인트 (인간 키)가 밀집되어 있다고 상상할 수 있습니다. 따라서, 키의 작은 부분 변화의 경우, 무게에 큰 변화가있을 것입니다 (높이에 따라 무게가 증가한다고 가정). dy / dx의 비율은 엄청납니다. 반면, 높이를 밀리미터 단위로 측정하면 높이 속성에서 데이터가 넓게 퍼집니다. 높이의 단위 변화는 체중에 큰 변화가 없습니다. dy / dx는 거의 0에 가깝습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.