VC 차원은 딥 러닝에 대해 무엇을 알려줍니까?


15

기본 기계 학습에서는 다음과 같은 "엄지 손가락 규칙"을 배웁니다.

a) 데이터의 크기는 가설 세트의 VC 차원 크기의 10 배 이상이어야합니다.

b) N 개의 연결을 갖는 신경망은 약 N의 VC 치수를 갖는다.

따라서 딥 러닝 신경망이 수백만 단위라고 말하면 이것이 수십억 개의 데이터 포인트를 가져야한다는 의미입니까? 이것에 대해 좀 밝힐 수 있습니까?


심층 신경망에는 귀하가 언급 한대로 수백만 개의 장치가 없습니다. 그러나 수백만 개의 연결이 있습니다. 나는 당신의 두 번째 경험 법칙이 주로 정규화 된 특성 (예 : 드롭 아웃이있는 CNN)으로 인해 이러한 네트워크에 적용되지 않는다고 가정합니다.
pir

핵심은 VC 바운드가 무한하지 않다는 것입니다. 그것이 유한하다면, PAC 이론은 우리에게 학습이 가능하다고 말합니다. 데이터의 양이 또 다른 질문입니다.
Vladislavs Dovgalecs

답변:


4

당신이 말하는 경험 법칙은 신경망에 적용될 수 없습니다.

신경망에는 몇 가지 기본 매개 변수, 즉 가중치와 바이어스가 있습니다. 가중치의 수는 네트워크 계층 간의 연결 수에 따라 달라지며 바이어스 수는 뉴런 수에 따라 다릅니다.

필요한 데이터의 크기는 다음에 따라 크게 다릅니다.

  1. 사용 된 신경망의 유형 .
  2. 인터넷에서 사용되는 정규화 기술 .
  3. 인터넷 교육에 사용되는 학습률.

즉, 모델이 과적 합하는지 여부를 알 수있는 더 적절하고 확실한 방법은 유효성 검사 오류가 훈련 오류에 가까운 지 확인하는 것입니다. 그렇다면 모델이 제대로 작동하는 것입니다. 그렇지 않은 경우 모델이 과적 합할 가능성이 높으므로 모델 크기를 줄이거 나 정규화 기술을 도입해야합니다.


모델이 과적 합하는지 이해하는 가장 좋은 방법은 유효성 검사 오류가 훈련 오류에 가까운 지 확인하는 것입니다.
nbro

6
@nbro, 유효성 검사 오류를 확인하기 위해 적절한 홀드 아웃이 설정된 경우 일반적으로 매우 느슨한 VC 범위를 통과하는 것보다 훈련 된 특정 네트워크에 대한 과적 합의 측정이 훨씬 안정적입니다.
Dougal

@Dougal 당신은 당신의 대답에서 말한 것을 반복하고 있습니다.
nbro

3
내 대답 @nbro가 아닙니다. 그러나 검증 세트가 주어지면 Hoeffding 또는 이와 유사한 것으로 일반화 오류에 대한 사소한 높은 확률을 얻을 수 있지만 VC 경계를 통과하는 것은 특정 데이터 세트 및 네트워크에 고유하지 않은 많은 느슨한 상한을 포함합니다. 손.
Dougal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.