규칙 및 규칙이란 무엇입니까?


12

기계 학습을 공부하면서이 단어들을 점점 더 많이 듣고 있습니다. 실제로 일부 사람들은 규칙의 규칙에 따라 Fields 메달을 수상했습니다. 저는 이것이 통계 물리 / 수학에서 기계 학습에 이르는 용어라고 생각합니다. 당연히, 내가 요청한 많은 사람들이 직관적으로 설명 할 수 없었습니다.

나는 드롭 아웃과 같은 방법이 정규화에 도움이된다는 것을 알고 있습니다 (=> 과잉 적합을 줄인다고 말하지만 실제로는 그것을 얻지 못합니다. 더 많은 생각, 따라서이 질문).

설명 할 수 있다면 정말 감사 할 것입니다 (순수한 ML 커뮤니티도 그렇게 생각합니다!).

  1. 규칙 성을 어떻게 정의합니까? 규칙 성이란 무엇입니까?

  2. 정규화는 규칙 성을 보장하는 방법입니까? 즉, 규칙을 포착 하는가?

  3. 드롭 아웃, 정규화 메소드와 같은 메소드가 모두 정규화한다고 주장하는 이유는 무엇입니까?

  4. 머신 러닝에서 왜 이러한 규칙 (정규 / 정규화)이 발생합니까?

도와 주셔서 정말로 고맙습니다.

답변:


8

정규화는 유한 한 훈련 데이터 샘플에서 배우려고하는 거의 모든 기계 학습 알고리즘에 사용됩니다.

정규화 개념의 기원을 설명함으로써 특정 질문에 간접적으로 답변하려고 노력할 것입니다. 전체 이론은 훨씬 더 상세하며이 설명은 완전한 것으로 해석되어서는 안되며 추가 탐색을 위해 올바른 방향으로 안내합니다. 주된 목표는 정규화를 직관적으로 이해하는 것이므로 Simon Haykin의 3 판 "Neural Networks and Learning Machines"의 7 장에서 다음 설명을 요약하고 크게 단순화했습니다.

xiyif

더 나아가서, "잘 제기 된"문제에 대한 Hadamard의 용어를 이해하자. 다음 세 가지 조건을 만족하면 문제가 제기된다.

  1. xiyi
  2. x1x2f(x1)=f(x2)x1=x2
  3. f

지도 학습의 경우 다음과 같은 이유로 이러한 조건을 위반할 수 있습니다.

  1. 주어진 입력에 대해 고유 한 출력이 없을 수 있습니다.
  2. 다른 학습 샘플에서 학습 알고리즘을 실행하면 다른 맵핑 함수가 생성되므로 고유 한 입출력 맵핑을 구성하기 위해 학습 샘플에 충분한 정보가 없을 수 있습니다.
  3. 데이터의 노이즈는 재구성 프로세스에 불확실성을 추가하여 안정성에 영향을 줄 수 있습니다.

이러한 "불합리한"문제를 해결하기 위해 Tikhonov는 솔루션에 대한 사전 정보를 포함하는 음이 아닌 기능을 포함하여 솔루션을 안정화하는 정규화 방법을 제안했습니다.

가장 일반적인 형태의 선행 정보는 입력-출력 매핑 기능이 원활하다는 가정을 포함합니다. 즉, 유사한 입력이 유사한 출력을 생성합니다.

λfλ

λ

이러한 정규화 된 비용 함수의 예는 다음과 같습니다.

선형 회귀:

J(θ)=1mi=1m[hθ(xi)yi]2+λ2mj=1nθj2

로지스틱 회귀 :

J(θ)=1mi=1m[yilog(hθ(xi))(1yi)log(1hθ(xi))]+λ2mj=1nθj2

θxhθ(x)y

L2

정규화를 적용하면 모델 복잡성을 줄이고 과적 합을 줄일 수 있습니다. 정규화에 대한 다른 접근 방식 (위의 예에 나열되지 않음)에는 더 간단한 트리를 만들기 위해 노드를 제거하여 회귀 / 분류 트리, 부스트 트리 등과 같은 구조 모델에 대한 수정이 포함됩니다. 보다 최근에는 신경 네트워크에서 뉴런 사이의 연결을 끊어 소위 "딥 러닝"에 적용되었습니다.

Q3에 대한 특정 답변은 Random Forest (또는 유사한 투표 구성표)와 같은 일부 유사한 방법은 고유 한 방법으로 인해 정규화를 달성한다는 것입니다. 개별 트리가 과적 합을하더라도 결과를 "평균화"하는 프로세스는 앙상블이 트레이닝 세트에 과적 합하는 것을 막습니다.

편집하다:

규칙 성 개념은 공리 세트 이론에 속하며,이 기사를 참조하십시오 -en.wikipedia.org/wiki/Axiom_of_regularity 자세한 내용에 관심이 있다면이 주제를 자세히 살펴보십시오.

신경망의 정규화 : 역 전파 알고리즘을 실행하는 동안 가중치를 조정할 때 정규화 항이 선형 및 로지스틱 회귀 분석의 예와 같은 방식으로 비용 함수에 추가됩니다. 따라서 정규화 용어를 추가하면 역 전파가 전역 최소값에 도달하는 것을 막을 수 있습니다.

신경망의 배치 정규화를 설명하는 기사는 다음과 같습니다.- 배치 정규화 : 내부 공변량 이동을 줄임으로써 심층 네트워크 훈련 가속화, Ioffe, Szegedy, 2015. 입력 변수가 정규화 될 때 신경망을 훈련시키기위한 역 전파가 더 잘 작동하는 것으로 알려져있다. 이 논문에서 저자들은 신경 계층의 여러 계층을 훈련 할 때 "그라디언트 소멸"문제를 피하기 위해 확률 적 그라디언트 디센트에 사용 된 각 미니 배치에 정규화를 적용했습니다. 논문에 설명 된 알고리즘은 각 활성화 계층에 대해 각 배치에서 계산 된 평균 및 분산을 미니 배치 SGD (NN 가중치 외에)로 최적화 된 다른 매개 변수 세트로 취급합니다. 그런 다음 전체 트레이닝 세트를 사용하여 활성화를 정규화합니다. 이 알고리즘에 대한 자세한 내용은 해당 논문을 참조하십시오. 이 방법을 사용하면 정규화에 드롭 아웃을 사용하지 않아도되므로 이것이 또 다른 유형의 정규화라고 주장 할 수 있습니다.


큰 답변 주셔서 감사합니다. 정규화와 같은 방법이 정규화를 달성하는 방법을 수학적으로 설명해 주시겠습니까? 그는 Goodfellow의 연설에서 차별화 할 수있는 것은 신경망의 정규화 기 역할을 할 수 있다고 말했다. 또한 규칙이 무엇인지 알고 있습니까? 그들은 단지 패턴을 의미합니까, 아니면 그 뒤에 수학이 있습니까? 다시 감사합니다.
라파엘

답장을 보내 주셔서 감사합니다. 대화가 기억 나지 않습니다. 신경망에서는 배치 정규화와 같은 레이어를 추가합니다. 그들이 정규화에 기여하는 괭이를 알고 싶습니까?
Rafael

귀하의 의견에 답변하고 이전 의견에 제공된 답변을 다시 추가하도록 수정되었습니다.
Sandeep S. Sandhu

3

질문 1

나는 정식 정의를 알지 못하며 귀하의 질문에 따르면이 용어는 다른 의미로 사용됩니다. 간단한 예제부터 시작하겠습니다 (2 번 문제에 답할 것입니다).

질문 2

능선 회귀는 좋은 출발점이 될 수 있습니다. 그것은 단일 행렬에 의해 제기 된 문제를 우회 하는 정규화 방법 입니다 .

그러나 (예를 들어) 그래디언트 부스팅 방법에 정의 된 "정규화 매개 변수" 는 모델의 복잡성낮추기 위한 것입니다.

질문 3

정규화 로서의 정규화 는 또 다른 의미를 갖습니다 (이 용어는 상당히 잘못된 것입니다). 복잡한 문제를 "그라데이션 하강 시점에서"더 간단한 것으로 바꿉니다. 신경망을 교정 할 필요는 없지만 실제로 교정하는 동안 도움이됩니다. (그러나 임의 함수의 전역 극값을 찾을 수 있으면 정규화가 필요하지 않습니다.)

질문 4

정규화 (모델의 복잡성을 줄이는 방법으로)는 과적 합을 줄이는 데 사용됩니다. 모형이 덜 복잡할수록 과잉 적합 될 가능성이 줄어 듭니다.

곁에

S. Watanabe 는 그의 연구에서이 용어를 엄격하게 사용합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.