손실 함수를 사용하여 선형 회귀 모델을 수행하는 이유는 무엇입니까? 엘1엘1L_1 대신에 엘2엘2L_2 정규화? 과적 합을 방지하는 것이 더 낫습니까? 결정적입니까 (그래서 항상 독특한 솔루션입니까)? 희소 모델을 생성하기 때문에 기능 선택이 더 낫습니까? 기능들 사이에 가중치가 분산됩니까?
신경망을 훈련 할 때, 네트워크를 정규화하는 최소한 4 가지 방법이 있습니다 : L1 정규화 L2 정규화 탈락 배치 정규화 물론 가중치 공유 및 연결 수 감소와 같은 다른 것들도 가장 엄격한 의미로 정규화되지 않을 수 있습니다. 그러나 어떤 정규화 방법 중 어떤 것을 사용할지 어떻게 선택할 것입니까? "모든 것을 시도하고 …
신경망에 대한 정규화 방법의 차이, 바람직하게는 다른 도메인 (또는 적어도 다른 데이터 세트)에 대한 차이점을 보여주는 논문이 있습니까? 나는 현재 대부분의 사람들이 컴퓨터 비전에서 정규화를 위해 드롭 아웃만을 사용하는 것처럼 보이기 때문에 묻고 있습니다. 다른 정규화 방법을 사용해야하는 이유가 있는지 확인하고 싶습니다.