나는 보통 과 규범 이 왜 정규화 되어 있는지 궁금 합니다. 왜 이것이 더 낫다는 증거가 있습니까?
나는 보통 과 규범 이 왜 정규화 되어 있는지 궁금 합니다. 왜 이것이 더 낫다는 증거가 있습니까?
답변:
@whuber의 의견 외에도 (*).
Hastie 등의 Sparsity와의 통계 학습에 관한 책에서 이에 대해 논의합니다. 또한 "norm"(엄격한 수학적 의미의 표준이 아니기 때문에 따옴표) (**)을 사용합니다. 이는 단순히 벡터의 0이 아닌 성분의 수를 계산합니다.
그런 의미에서 규범은 변수 선택에 사용되지만 규범과 함께 볼록하지 않으므로 최적화하기가 어렵습니다. 그들은 규범, 즉 올가미가 "노름"( "최상의 부분 집합 선택에서 가장 가까운 볼록한 완화") 이라고 볼 수 있다고 주장한다 . 이 책은 또한 다른 규범 의 일부 사용을 언급합니다 . -norm 의 단위 공은 다음과 같습니다.l q q < 1 L 1 L 0 L q l q q < 1
올가미가 변수 선택을 제공 할 수있는 이유에 대한 그림 설명은 wikipedia의 이미지입니다.
이 이미지는 위의 참조 도서에서 가져온 것입니다. 올가미의 경우 (다이아몬드로 그려진 단위 공) 타원체 (제곱합) 윤곽이 먼저 모서리 중 하나의 다이아몬드에 닿을 가능성이 훨씬 높습니다. 볼록하지 않은 경우 (첫 번째 단위 볼 그림) 타원체와 단위 볼 사이의 첫 번째 터치가 모서리 중 하나에있을 가능성이 훨씬 높으므로이 경우 올가미보다 변수 선택이 더욱 강조됩니다.
구글에서이 "볼록하지 않은 가진 를 하면 와 같은 볼록하지 않은 벌점과 하여 올가미 같은 문제를 일으키는 많은 논문을 얻을 수 있습니다. q < 1
(*) 완전성을 위해 whuber의 의견을 여기에 복사하십시오.
나는이 질문을 구체적으로 조사하지는 않았지만 비슷한 상황에서의 경험은 좋은 정 성적 대답이있을 수 있음을 시사합니다. 원점에서 두 번째로 차별화 할 수있는 모든 규범은 서로 로컬로 동등하며 규범이 표준입니다. 다른 모든 규범은 기원에서 차별화 할 수 없으며 그들의 행동을 질적으로 재현합니다. 그것은 영역을 다룹니다. 실제로, 및 규범 의 선형 조합은 원점에서 임의의 규범을 2 차로 근사화합니다. 이는 외부 잔차없이 회귀에서 가장 중요한 것입니다.L 1 L 1 L 2
(**) "norm"은 동질성이 결여되어 규범에 대한 공리 중 하나입니다. 에 대한 동질성 수단 이.
질문에 대한 대답은 "더 나은"을 어떻게 정의 하느냐에 달려 있다고 생각합니다. 내가 올바르게 해석한다면, 왜 다른 표준에 비해 이러한 규범이 자주 나타나는지 알고 싶을 것입니다. 이 경우 대답은 간단합니다. 정규화의 직관은 벡터가 있고 그 벡터가 어떤 의미에서 "작은"상태가 되길 원한다는 것입니다. 벡터의 크기를 어떻게 설명합니까? 글쎄, 당신은 선택할 수 있습니다 :
과 같은 대체 규범을 사용할 수는 있지만 위와 같은 친근하고 물리적 인 해석은 없습니다.
이 목록 내에서 규범은 최소 제곱 문제와 같은 문제에 대한 훌륭한 폐쇄 형 분석 솔루션을 제공합니다. 무제한 컴퓨팅 성능을 갖추기 전에는 다른 방식으로 많은 발전을 이룰 수 없었습니다. 나는 "화살의 길이"가 다른 크기의 측정보다 사람들에게 더 매력적이라고 추측한다. 정규화를 위해 선택한 표준이 최적의 솔루션으로 얻는 잔차 유형에 영향을 미치더라도 대부분의 사람들이 a) 그것을 알고 있거나 b) 문제를 공식화 할 때 깊이 고려한다고 생각하지 않습니다. 현재 는 "모두가하는 일"이기 때문에 대부분의 사람들이 계속 사용하기를 기대 합니다.
지수 함수 와 유사합니다. 이것은 물리, 경제, 통계, 기계 학습 또는 기타 수학적으로 구동되는 분야의 모든 곳에 나타납니다. 나는 우리 인간이 우리의 소매에 많은 트릭을 가지고 있지 않다는 것을 깨달을 때까지 왜 삶의 모든 것이 지수에 의해 묘사 된 것처럼 보이는지 영원히 궁금했습니다. 지수는 대수와 미적분학을 수행하는 데 매우 편리한 속성을 가지므로 실제 세계에서 무언가를 모델링하려고 할 때 모든 수학자 도구 상자에서 최고의 함수입니다. 분리 시간과 같은 것은 고차 다항식에 의해 "더 나은"설명이 될 수 있지만, 대수를 다루는 것이 상대적으로 더 어려우며, 결국에는 회사가 돈을 벌고 있다는 것이 중요합니다. 더 간단하고 충분합니다.
그렇지 않으면, 표준의 선택은 매우 주관적인 영향을 미치며, 최적의 솔루션에서 선호하는 것을 정의하는 것은 문제를 진술하는 사람에게 달려 있습니다. 솔루션 벡터의 모든 구성 요소의 크기가 비슷하거나 가장 큰 구성 요소의 크기가 최대한 작을 지 걱정하십니까? 선택은 해결하려는 특정 문제에 따라 다릅니다.
대부분 및 표준 을 보는 주된 이유 는 대부분의 현재 응용 프로그램을 다루기 때문입니다. 예를 들어, 규범 은 택시 직선 규범 이라고도하며 , 격자 직선 연결 규범은 절대 값 norm을 포함합니다 .
기준은 최소 제곱, 이외에있다 의 유클리드 거리 - 공간 뿐만 아니라 복잡한 변수 놈 . 더욱이 Tikhonov 정규화 및 능선 회귀 , 즉 최소화하는 응용 프로그램 은 종종 규범으로 간주됩니다. .
Wikipedia는 이것들과 다른 규범 에 관한 정보를 제공합니다 . 언급 할 가치가있는 것은 입니다. 일반화 된 규범 인 규범은 균일 규범 이라고도합니다 .