회귀 정규화 (선형, 로지스틱 등)는 과적 합을 줄이는 가장 보편적 인 방법입니다.
목표가 예측 정확도 (설명하지 않음) 인 경우 정규화에 대한 대안이 있습니까? 특히 빅 데이터 세트 (수십억 개의 관측치 및 수백만 개의 특징)에 적합합니까?
회귀 정규화 (선형, 로지스틱 등)는 과적 합을 줄이는 가장 보편적 인 방법입니다.
목표가 예측 정확도 (설명하지 않음) 인 경우 정규화에 대한 대안이 있습니까? 특히 빅 데이터 세트 (수십억 개의 관측치 및 수백만 개의 특징)에 적합합니까?
답변:
질문과 직접 관련이없는 두 가지 중요한 사항 :
첫째, 목표는 해석이 아닌 정확성이지만, 정규화는 여전히 많은 경우에 필요합니다. 모델링에 사용 된 데이터가 아니라 실제 테스트 / 생산 데이터 세트에서 "높은 정확도"를 보장하기 때문입니다.
둘째, 10 억 개의 행과 백만 개의 열이 있으면 정규화가 필요하지 않을 수 있습니다. 이는 데이터가 방대하고 많은 계산 모델이 "제한된 힘"을 가지기 때문입니다. 즉, 과적 합이 거의 불가능합니다. 이것이 일부 심층 신경망에 수십억 개의 매개 변수가있는 이유입니다.
자, 당신의 질문에 대해. Ben과 Andrey가 언급했듯이 정규화의 대안으로 몇 가지 옵션이 있습니다. 더 많은 예제를 추가하고 싶습니다.
더 간단한 모델을 사용하십시오 (예 : 신경망에서 숨겨진 단위 수를 줄입니다. SVM에서는 하위 다항식 커널을 사용합니다. 가우시안 등의 가우시안 수를 줄이십시오.)
최적화 초기에 중지하십시오. (예를 들어, 신경망 훈련에서 신기원을 줄이고, 최적화에서 반복 횟수를 줄입니다 (CG, BFGS 등)
많은 모델에서 평균 (예 : 임의 포리스트 등)
정규화에 대한 두 가지 대안 :
역 전파의 공동 발명자 인 Geoff Hinton은 한때 엔지니어에게 다음과 같이 말했습니다. "무거운 데이터를 가지고 있기 때문에 깊은 그물에 드롭 아웃 할 필요가 없습니다." 그리고 그의 대답은 "글쎄, 당신은 당신 이 과적 합할 때까지 더 깊은 그물을 구축하고 드롭 아웃을 사용해야합니다." 좋은 조언을 제외하고는 충분한 데이터가있는 한 깊은 그물로도 정규화를 피할 수 있습니다.
고정 된 수의 관측치로 더 간단한 모형을 선택할 수도 있습니다. 간단한 선형 회귀 분석에서 절편, 기울기 및 오차 분산을 추정하기 위해 정규화 할 필요는 없습니다.
차원 축소
기능 선택 (치수 축소)
보다 낮은 차원의 피쳐 공간을 얻기 위해 라운드의 피쳐 선택 (예 : LASSO 사용)을 수행 할 수 있습니다. LASSO를 사용한 기능 선택과 같은 기능은 크지 만 알려지지 않은 기능 중 일부가 관련이없는 경우 유용 할 수 있습니다.
임의 포리스트와 같이 과적 합하기 쉬운 알고리즘을 사용하십시오. (설정, 기능 수 등에 따라 일반 최소 제곱보다 계산 비용이 많이들 수 있습니다.)
다른 답변 중 일부는 부스팅 및 배깅 기술 / 알고리즘의 장점도 언급했습니다.
베이지안 방법
계수 벡터에 사전을 추가하면 과적 합이 줄어 듭니다. 이것은 개념적으로 정규화와 관련이 있습니다. 능선 회귀는 사후 추정을 극대화하는 특별한 경우입니다.
반복 / 에포크 수를 정의 할 수있는 솔버가있는 모델을 사용하는 경우 유효성 검사 오류를 추적하고 조기 중지를 적용 할 수 있습니다. 유효성 검사 오류가 증가하면 알고리즘을 중지하십시오.
두 가지 생각 :
나는 Ben Ogorek이 제안한 "더 간단한 모델 사용"전략에 이어 두 번째 이다.
작은 정수 계수 (예 : -5와 5 사이의 정수 계수를 가진 최대 5 개의 변수)를 가진 희소 선형 분류 모델을 작업합니다. 모델은 정확성과 까다로운 성능 지표 (예 : 교정) 측면에서 잘 일반화됩니다.
이 백서 의이 방법은 로지스틱 회귀 분석을 위해 큰 표본 크기로 확장되며 볼록 손실 함수가있는 다른 선형 분류기에 적합하도록 확장 될 수 있습니다. 기능이 많은 경우를 처리하지 않습니다 (
모형에 대한 추가 구속 조건 (예 : 단조 구속 조건, 부가 정보)을 지정할 수 있으면 가설 공간을 줄임으로써 일반화에 도움이 될 수 있습니다 (예 : 이 백서 참조 ).
이 작업은주의해서 수행해야합니다 (예 : 제약 조건없이 모델을 기준선과 비교하고 체리 따기 제약 조건이되지 않도록 훈련 프로세스를 설계하려는 경우).