박사 학위 논문의 주제는 신경망, 특히 피드 포워드 신경망의 블랙 박스 속성을 하나 또는 두 개의 숨겨진 레이어로 공개하는 것이 었습니다.
한 계층 피드 포워드 신경망에서 가중치와 바이어스 용어의 의미를 모든 사람에게 설명하는 데 어려움을 겪습니다. 두 가지 다른 관점, 즉 파라 메트릭 관점과 확률 론적 관점이 다루어 질 것입니다.
다음에서는 각 입력 뉴런에 제공된 입력 값이 모두 선형 스케일링 ( )에 의해 간격 (0,1)으로 정규화되었다고 가정합니다. 계수 및 는 과 같이 입력 변수마다 선택됩니다 . 실수 변수와 열거 변수를 구별합니다 (부울 변수를 특수 사례 열거 변수로 사용).xinput=α⋅x+βαβxinput∈(0,1)
- 선형 스케일링 후 실수 변수는 과 사이의 10 진수로 제공됩니다 .01
- 열거 된 변수는 요일 (월요일, 화요일 등)을 입력 노드 로 표시하며 , 는 enurable 결과 수, 즉 1 주일 중 일입니다.vv7
입력 레이어에서 가중치의 (절대 값) 크기를 해석 할 수 있으려면 입력 데이터의 이러한 표현이 필요합니다.
파라 메트릭 의미 :
- 가중치 의 절대 값 이 입력 뉴런과 숨겨진 뉴런 사이에 클수록 변수가 특정 숨겨진 노드의 '발화'에 더 중요합니다. 가중치가 가까우면
입력 값이 적합하지 않은 것으로 나타납니다. 0
- 숨겨진 노드로부터 출력 노드까지의 가중치는 절대적인 의미에서 숨겨진 뉴런에 의해 가장 증폭 된 입력 변수의 가중치 증폭이 특정 출력 노드를 촉진 시키거나 감쇠 시킨다는 것을 나타낸다. 체중의 부호는 승격 (양성) 또는 억제 (음성)를 나타냅니다.
- 신경망의 파라미터에 명시 적으로 표현되지 않은 세 번째 부분은 입력 변수의 다변량 분포입니다. 즉, 값 이 입력 노드 제공되는 경우 가 얼마나 됩니까? 숨겨진 노드 가중치가 실제로 큰 가요?132
- 편향 항은 숨겨진 (또는 출력) 뉴런의 평균을 이동시키는 변환 상수입니다. 위에서 설명한 shift 처럼 작동합니다 .β
출력 뉴런으로부터의 추론 : 출력 뉴런 에 대한 연결에서 어떤 숨겨진 뉴런이 절대 중량 값이 가장 높은가? 각 숨겨진 노드의 활성화가 가까워 지는 빈도 (시그 모이 드 활성화 기능을 가정). 훈련 세트에서 측정 한 주파수에 대해 이야기하고 있습니다. 정확하게하려면 : 숨겨진 노드 빈도 무엇인지 하고 입력 변수에 큰 가중치, 및 , 이러한 숨겨진 노드 것을 하고 에 가까운1iltsil1? 각 숨겨진 노드는 정의에 따라 입력 값의 가중 평균을 전파합니다. 각 숨겨진 노드는 주로 어떤 입력 변수를 승격 시키거나 억제합니까? 또한 는 숨겨진 노드 에서 두 개의 출력 노드로 는 가중치 간의 가중치의 절대 차이에 대해 설명합니다. 와 .Δj,k=∣wi,j−wi,k∣ijk
더 중요한 숨겨진 노드는 출력 노드 (트레이닝 세트를 통한 주파수 대화)에서 어떤 '입력 가중치 대 입력 주파수'가 가장 중요합니까? 그런 다음 피드 포워드 신경망의 매개 변수의 중요성에 대해 자세히 살펴 봅니다.
확률 론적 해석 :
확률 적 관점은 분류 신경망을 베이 즈 분류기 (이론적으로 정의 된 가장 낮은 오류율을 갖는 최적 분류기)로 간주하는 것을 의미한다. 신경망의 결과에 영향을 미치는 입력 변수는 무엇이며 얼마나 자주? 이것을 확률 론적 감수성 분석으로 간주하십시오. 하나의 입력 변수를 바꾸면 얼마나 자주 다른 분류로 이어질 수 있습니까? 입력 뉴런 이 얼마나 자주 분류 결과에 가장 큰 영향 을 미쳐 해당 출력 뉴런이 가장 높은 값을 달성 했는가?xinput
개별 사례-패턴
실수 입력 뉴런 을 변경하면 가장 가능성있는 분류가 변경 될 수 변수가 잠재적 영향을 미칩니다 . 열거 변수의 결과를 변경하는 경우 (월요일 에서 화요일 또는 다른 요일로 변경) ), 그리고 가장 가능성이 높은 결과가 변경되면 열거 된 변수가 분류 결과에 잠재적 영향 을 미칩니다 .xinput[1,0,0,0,0,0,0][0,1,0,0,0,0,0]
이제 그러한 변화의 가능성을 고려할 때 예상되는 영향에 대해 이야기합니다 . 입력 변수가 변경 되어 다른 모든 입력 값이 주어지면 입력 사례가 결과를 변경 하도록하는 확률은 얼마입니까? 예상 영향은 의 예상 값 , 즉 냅니다. 여기서 은 입력 제외한 모든 입력 값의 벡터입니다 . 열거 된 변수는 여러 입력 뉴런으로 표시됩니다. 여기서 가능한 결과는 하나의 변수로 간주됩니다. x i n p u t E ( x i n p u t ∣ x − i n p u t ) x − i n p u t x i n p u txinputxinputE(xinput∣x−input)x−inputxinput
깊은 기울기-NN 매개 변수의 의미
컴퓨터 비전에 적용될 때 신경망은 지난 10 년 동안 놀라운 발전을 보여주었습니다. 1989 년 LeCunn이 도입 한 컨볼 루션 뉴럴 네트워크는 이미지 인식 측면에서 실제로 성능이 우수한 것으로 판명되었습니다. 다른 컴퓨터 기반 인식 방식보다 성능이 우수하다고보고되었습니다.
컨볼 루션 신경망이 객체 인식을 위해 훈련 될 때 흥미로운 비상 속성이 나타납니다. 숨겨진 노드의 첫 번째 계층은 스케일 공간 연산자 T. Lindeberg, 자동 스케일 선택 기능 감지 1998와 유사한 저수준 기능 검출기를 나타냅니다 . 이 스케일 공간 연산자는
다른 기본 이미지 기능도 있습니다.
포유류 뇌의 지각 뉴런이 (생물학적) 이미지 처리의 첫 단계에서 이러한 방식으로 작동하는 것으로 나타났습니다. CNN과 함께 과학계는 인간의 인식을 그토록 경이롭게 만드는 것에 대해 종결하고 있습니다. 이것은이 연구 라인을 더 추구하는 것이 매우 가치가 있습니다.