왜 우리는 및 정규화 고 다른 표준은 보이지 않습니까?


36

나는 보통 과 규범 이 왜 정규화 되어 있는지 궁금 합니다. 왜 이것이 더 낫다는 증거가 있습니까?L1L2


13
(1) 나는 특별히이 문제를 조사하지 않은,하지만 비슷한 상황에 대한 경험이 좋은 성적 대답이있을 수 있습니다 제안 : 서로 로컬에 해당 될 것입니다 기원에서 미분 초 모든 규범을하는의 표준이 표준입니다. 다른 모든 규범은 기원에서 구별 할 수 없으며 그들의 행동을 질적으로 재현합니다. 그것은 영역을 다룹니다. 실제로, 과 노름 의 선형 조합은 원점에서 임의의 노름과 2 차의 근사치를 근사 하며, 이는 잔차가없는 회귀 분석에서 가장 중요한 문제입니다. L 1 L 1 L 2L2L1L1L2
whuber

3
예 : 이것은 본질적으로 Taylor의 정리입니다.
whuber

4
질문의 전제는 거짓입니다. 덜 일반적이지만 다른 -norms가 사용됩니다. p
Firebug

3
@whuber가 언급 한 선형 조합을 종종 탄력적 그물 이라고합니다 .
Luca Citi

4
또한 Lp 규범 중 도 많은 마일리지를 얻습니다. L
user795305

답변:


28

@whuber의 의견 외에도 (*).

Hastie 등의 Sparsity와의 통계 학습에 관한 책에서 이에 대해 논의합니다. 또한 "norm"(엄격한 수학적 의미의 표준이 아니기 때문에 따옴표) (**)을 사용합니다. 이는 단순히 벡터의 0이 아닌 성분의 수를 계산합니다.L0

그런 의미에서 규범은 변수 선택에 사용되지만 규범과 함께 볼록하지 않으므로 최적화하기가 어렵습니다. 그들은 규범, 즉 올가미가 "노름"( "최상의 부분 집합 선택에서 가장 가까운 볼록한 완화") 이라고 볼 수 있다고 주장한다 . 이 책은 또한 다른 규범 의 일부 사용을 언급합니다 . -norm 의 단위 공은 다음과 같습니다.l q q < 1 L 1 L 0 L q l q q < 1L0lqq<1L1L0Lqlqq<1

여기에 이미지 설명을 입력하십시오

올가미가 변수 선택을 제공 할 수있는 이유에 대한 그림 설명은 wikipedia의 이미지입니다.

여기에 이미지 설명을 입력하십시오

이 이미지는 위의 참조 도서에서 가져온 것입니다. 올가미의 경우 (다이아몬드로 그려진 단위 공) 타원체 (제곱합) 윤곽이 먼저 모서리 중 하나의 다이아몬드에 닿을 가능성이 훨씬 높습니다. 볼록하지 않은 경우 (첫 번째 단위 볼 그림) 타원체와 단위 볼 사이의 첫 번째 터치가 모서리 중 하나에있을 가능성이 훨씬 높으므로이 경우 올가미보다 변수 선택이 더욱 강조됩니다.

구글에서이 "볼록하지 않은 가진 를 하면 와 같은 볼록하지 않은 벌점과 하여 올가미 같은 문제를 일으키는 많은 논문을 얻을 수 있습니다. q < 1lqq<1

(*) 완전성을 위해 whuber의 의견을 여기에 복사하십시오.

나는이 질문을 구체적으로 조사하지는 않았지만 비슷한 상황에서의 경험은 좋은 정 성적 대답이있을 수 있음을 시사합니다. 원점에서 두 번째로 차별화 할 수있는 모든 규범은 서로 로컬로 동등하며 규범이 표준입니다. 다른 모든 규범은 기원에서 차별화 할 수 없으며 그들의 행동을 질적으로 재현합니다. 그것은 영역을 다룹니다. 실제로, 및 규범 의 선형 조합은 원점에서 임의의 규범을 2 차로 근사화합니다. 이는 외부 잔차없이 회귀에서 가장 중요한 것입니다.L 1 L 1 L 2L2L1L1L2

(**) "norm"은 동질성이 결여되어 규범에 대한 공리 중 하나입니다. 에 대한 동질성 수단 이.l0α0αx=αx


1
@kjetilbhalvorsen 심오한 답변에 감사드립니다. 질문과 제목과 일치시키기 위해 흔하지 않은 위첨자를 선택합니다. 물론 원하는 방식으로 작성할 수 있습니다.
Ferdi

@kjetilbhalvorsen Whuber의 의견에 대해 조금 더 말씀해 주시겠습니까? 규범은 원점에서 구별 할 수없는 것으로 잘 알려져 있습니다 ( 예를 들어 고려 ). 규범의 '국가적 동등성'이 무엇을 의미하는지는 확실하지 않다. 최소한의 언급이 필요합니다. L2x|x|
Olivier

@Olivier -norm은 원점에서 구별 할 수 있습니다 . -norm에 대해 생각하고 있습니다. 21
Firebug

@Firebug No. 저는 규범 과 같은 1 차원 의 규범에 대해 생각하고 있습니다. 뭔가 빠졌습니까? L2L1
Olivier

2
@Olivier 오, 당신은 실제로 맞습니다. 제곱 된 -norm이 실제로 사용되므로 어디에서나 구별 할 수 있기 때문에 오해 했습니다. 2
Firebug

12

질문에 대한 대답은 "더 나은"을 어떻게 정의 하느냐에 달려 있다고 생각합니다. 내가 올바르게 해석한다면, 왜 다른 표준에 비해 이러한 규범이 자주 나타나는지 알고 싶을 것입니다. 이 경우 대답은 간단합니다. 정규화의 직관은 벡터가 있고 그 벡터가 어떤 의미에서 "작은"상태가 되길 원한다는 것입니다. 벡터의 크기를 어떻게 설명합니까? 글쎄, 당신은 선택할 수 있습니다 :

  • 얼마나 많은 요소 있습니까?(L0)
  • 모든 요소를 ​​추가 합니까 ?(L1)
  • "화살표"의 길이가 얼마나 "길이" 입니까?(L2)
  • 가장 큰 요소 의 크기를 사용 합니까?(L)

과 같은 대체 규범을 사용할 수는 있지만 위와 같은 친근하고 물리적 인 해석은 없습니다.L3

이 목록 내에서 규범은 최소 제곱 문제와 같은 문제에 대한 훌륭한 폐쇄 형 분석 솔루션을 제공합니다. 무제한 컴퓨팅 성능을 갖추기 전에는 다른 방식으로 많은 발전을 이룰 수 없었습니다. 나는 "화살의 길이"가 다른 크기의 측정보다 사람들에게 더 매력적이라고 ​​추측한다. 정규화를 위해 선택한 표준이 최적의 솔루션으로 얻는 잔차 유형에 영향을 미치더라도 대부분의 사람들이 a) 그것을 알고 있거나 b) 문제를 공식화 할 때 깊이 고려한다고 생각하지 않습니다. 현재 는 "모두가하는 일"이기 때문에 대부분의 사람들이 계속 사용하기를 기대 합니다.L2L2

지수 함수 와 유사합니다. 이것은 물리, 경제, 통계, 기계 학습 또는 기타 수학적으로 구동되는 분야의 모든 곳에 나타납니다. 나는 우리 인간이 우리의 소매에 많은 트릭을 가지고 있지 않다는 것을 깨달을 때까지 왜 삶의 모든 것이 지수에 의해 묘사 된 것처럼 보이는지 영원히 궁금했습니다. 지수는 대수와 미적분학을 수행하는 데 매우 편리한 속성을 가지므로 실제 세계에서 무언가를 모델링하려고 할 때 모든 수학자 도구 상자에서 최고의 함수입니다. 분리 시간과 같은 것은 고차 다항식에 의해 "더 나은"설명이 될 수 있지만, 대수를 다루는 것이 상대적으로 더 어려우며, 결국에는 회사가 돈을 벌고 있다는 것이 중요합니다. 더 간단하고 충분합니다.ex

그렇지 않으면, 표준의 선택은 매우 주관적인 영향을 미치며, 최적의 솔루션에서 선호하는 것을 정의하는 것은 문제를 진술하는 사람에게 달려 있습니다. 솔루션 벡터의 모든 구성 요소의 크기가 비슷하거나 가장 큰 구성 요소의 크기가 최대한 작을 지 걱정하십니까? 선택은 해결하려는 특정 문제에 따라 다릅니다.


10

대부분 및 표준 을 보는 주된 이유 는 대부분의 현재 응용 프로그램을 다루기 때문입니다. 예를 들어, 규범 은 택시 직선 규범 이라고도하며 , 격자 직선 연결 규범은 절대 값 norm을 포함합니다 . L1L2L1

L2 기준은 최소 제곱, 이외에있다 의 유클리드 거리 - 공간n 뿐만 아니라 복잡한 변수 놈 . 더욱이 Tikhonov 정규화 및 능선 회귀 , 즉 최소화하는 응용 프로그램 은 종종 규범으로 간주됩니다. .Axb2+Γx2L2

Wikipedia는 이것들과 다른 규범 에 관한 정보를 제공합니다 . 언급 할 가치가있는 것은 입니다. 일반화 된 규범 인 규범은 균일 규범 이라고도합니다 .L0LpL

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.