정도를 낮추는 대신 다항식 회귀 분석에서 정규화를 사용하는 이유는 무엇입니까?

32

예를 들어, 회귀를 수행 할 때 선택할 두 개의 하이퍼 매개 변수는 종종 함수의 용량 (예 : 다항식의 최대 지수)과 정규화 량입니다. 내가 혼동하는 것은 왜 저용량 기능을 선택한 다음 정규화를 무시하지 않는 것입니까? 그렇게하면 과잉 적합하지 않습니다. 정규화와 함께 고용량 기능이있는 경우 저용량 기능을 사용하고 정규화하지 않는 것과 동일하지 않습니까?

— 카르 니 바우 루스
소스

49

나는 최근에 다음 아이디어를 가지고 사용할 수있는 브라우저 앱을 조금 만들었습니다 : Scatterplot Smoothers (*).

여기 다항식 적합도가 낮은 일부 데이터가 있습니다.

$0.6$ $0.85$ $0.85$

편견을 없애기 위해 곡선의 정도를 3으로 늘릴 수는 있지만 문제는 여전히 남아 있습니다. 입방 형 곡선은 여전히 너무 강합니다

그래서 우리는 학위를 계속 증가 시키지만 이제 반대의 문제가 발생합니다

이 곡선은 데이터를 너무 세밀하게 추적하며 데이터의 일반적인 패턴으로 잘 표현되지 않은 방향으로 날아가는 경향이 있습니다. 이것은 정규화가 시작되는 곳입니다. 같은 정도의 곡선 (10)과 잘 선택된 정규화로

우리는 정말 잘 맞습니다!

위에서 선택한 잘 한 측면에 약간의 초점을 맞출 가치가 있습니다. 다항식을 데이터에 피팅 할 때 학위에 대한 개별 선택 세트가 있습니다. 차수가 3 인 곡선이 적합하지 않고 차수가 4 인 곡선이 과도 적합하면 중간에 갈 곳이 없습니다. 정규화는이 문제를 해결하여 지속적으로 복잡한 매개 변수 범위를 제공합니다.

"우리는 정말 잘 맞습니다!"라고 어떻게 주장합니까? 나를 위해 그들은 모두 똑같이 보입니다. 즉 결정적이지 않습니다. 무엇이 좋고 나쁘지 않은지를 결정하기 위해 어떤 합리성을 사용하고 있습니까?

페어 포인트.

내가 여기서 만드는 가정은 잘 맞는 모델은 잔차에 식별 가능한 패턴이 없어야한다는 것입니다. 이제 잔차를 표시하지 않으므로 그림을 볼 때 약간의 작업을 수행해야하지만 상상력을 사용할 수 있어야합니다.

첫 번째 그림에서 2 차 곡선이 데이터에 적합하면 잔차에서 다음 패턴을 볼 수 있습니다.

0.0에서 0.3까지는 곡선 위와 아래에 고르게 배치됩니다.
0.3에서 약 0.55까지 모든 데이터 포인트가 곡선 위에 있습니다.
0.55에서 약 0.85까지 모든 데이터 포인트가 곡선 아래에 있습니다.
0.85부터는 모두 커브 위로 다시 올라갑니다.

이러한 동작을 로컬 바이어스라고 합니다. 곡선이 데이터의 조건 평균과 거의 일치하지 않는 영역이 있습니다.

큐빅 스플라인을 사용하여 마지막 맞춤과 비교하십시오. 데이터 포인트의 질량 중심을 정확하게 통과하는 것처럼 보이지 않는 눈으로 영역을 선택할 수는 없습니다. 이것은 일반적으로 (잘 모르겠지만) 내가 잘 맞는 것을 의미합니다.

$2$

데이터 경계에서의 행동은 정규화를하더라도 매우 혼란 스러울 수 있습니다.
그들은 어떤 의미에서도 지역적 이지 않습니다 . 한 곳에서 데이터를 변경하면 매우 다른 장소에 적합하게 영향을 줄 수 있습니다.

대신 설명과 같은 상황에서 정규화와 함께 자연스러운 입방 스플라인 을 사용하는 것이 좋습니다. 이는 유연성과 안정성 사이에서 최상의 절충안을 제공합니다. 앱에 스플라인을 맞추면 직접 볼 수 있습니다.

(*) 현대 자바 스크립트 기능을 사용하기 때문에 크롬과 파이어 폭스에서만 작동한다고 생각합니다 (사파리 및 즉, 그것을 수정하는 전반적인 게으름). 관심이 있다면 소스 코드는 여기 에 있습니다.

— 매튜 드 루리
소스

3

감사합니다. 브라우저 도구가 훌륭합니다. 대화식 데모는 그다지 좋아하지 않습니다!

— Karnivaurus

@Karnivaurus 감사합니다. 도와 드리겠습니다. 이 도구는 빌드하기에 재미있었습니다. 저는 자바 스크립트를 작성하는 것을 좋아합니다.

— Matthew Drury

3

+6. 이 도구를 잘 작성했습니다! 실이 그에 현상금을 넣을만큼 오래되면 나에게서 현상금을 얻습니다.

— amoeba는

4

+1 이것은 정말 좋은 답변입니다. 고도 다항식 적합의 불안정성을 나타내는 한 가지 방법은 각 점에 대해 하나의 데이터 점이 제거 된 고차 회귀를 플로팅하고 RCS 솔루션과 대조하는 것입니다.

— Sycorax는 Reinstate Monica

1

@MatthewDrury "제한된 큐빅 스플라인"-죄송합니다.

— Sycorax는 18:41에 Reinstate Monica

4

아니요, 동일하지 않습니다. 예를 들어, 정규화하지 않은 2 차 다항식과 4 차 다항식을 비교합니다. 후자는 정규화 절차 (아마도 교차 검증)에 대한 페널티 크기를 선택하는 데 사용되는 절차에 따라 예측 정확도를 높이는 한 제 3 및 제 4 거듭 제곱에 큰 계수를 지정할 수 있습니다. 이는 정규화의 이점 중 하나가 모델 복잡성을 자동으로 조정하여 과적 합과 과적 합 간의 균형을 맞출 수 있다는 것입니다.

— 코디과
소스

그러나 4 차 다항식에 정규화를 추가하면 표현력을 최대한 발휘할 수 없습니다. 따라서 충분한 정규화로 표현력은 2 차 다항식만큼 표현력이 떨어지는 지점으로 줄어 듭니다. 아니?

— Karnivaurus

1

페널티 크기를 미리 고정했다면 그 의미는 무엇입니까? 패널티 크기는 데이터를 기준으로 선택해야합니다.

— Kodiologist

4

다항식의 경우 계수를 조금만 변경해도 더 높은 지수에 차이가 생길 수 있습니다.

$L_2$

— 폐허
소스

2

모든 대답이 훌륭하고 Matt과 유사한 시뮬레이션을 통해 정규화를 사용하여 복잡한 모델이 단순한 모델보다 더 나은 이유를 보여주는 또 다른 예를 제공합니다 .

나는 직관적 인 설명을 비유했습니다.

사례 1 지식이 제한된 고등학생 만 있습니다 (정규화가없는 간단한 모델).
사례 2 당신은 대학원생이 있지만 문제를 해결하기 위해 고등학교 지식 만 사용하도록 제한합니다. (정규화 복잡한 모델)

두 사람이 같은 문제를 해결하는 경우 일반적으로 대학원생은 지식에 대한 경험과 통찰력으로 인해 더 나은 해결책을 찾습니다.

그림 1은 동일한 데이터에 대한 4 개의 피팅을 보여줍니다. 4 개의 피팅은 선, 포물선, 3 차 모델 및 5 차 모델입니다. 5 차 모델에 과적 합 문제가있을 수 있습니다.

반면에, 두 번째 실험에서는 다른 수준의 정규화와 함께 5 차 모델을 사용합니다. 마지막 모델과 두 번째 주문 모델을 비교하십시오. (두 모델이 강조 표시됨) 마지막 모델은 포물선과 유사하지만 (대략 동일한 모델 복잡도를 가짐) 데이터에 약간 더 유연하다는 것을 알 수 있습니다.

— 하이 타오 뒤
소스

1

"거의 동일한 모델 복잡성을가집니다"... 이것은 시각적으로 "명백한"비교입니다. 측정하는 수학적 방법이 있습니까?

— Silverfish