내 신경망은 무엇을 배웠습니까? 어떤 기능에 관심이 있으며 그 이유는 무엇입니까?


30

신경망은 목표를 달성하기위한 수단으로 데이터 세트의 기능을 학습합니다. 그것이 끝나면 신경망이 무엇을 배웠는지 알고 싶을 것입니다. 기능은 무엇이며 왜 그 점에 관심이 있었습니까? 누군가이 문제와 관련된 작업 본문에 대한 언급을 할 수 있습니까?

답변:


28

신경망이 무엇을 배우고 있는지 이해하기는 어렵지만 그 분야에서 많은 연구가 이루어지고 있습니다. 우리의 네트워크가 무엇을 찾고 있는지 확실히 알 수 있습니다.

이미지에 대한 컨볼 루션 신경망의 경우를 고려해 봅시다. 첫 번째 레이어 에 대해 이미지 위로 필터를 슬라이딩한다는 해석이 있으므로 첫 번째 숨겨진 레이어는 이미지의 작은 청크와 다양한 필터 간의 일치에 해당합니다. 이러한 필터를 시각화하여 첫 번째 표현 레이어가 무엇인지 확인할 수 있습니다.K

alexnet 레이어 1

이 그림은 AlexNet 의 첫 번째 필터 계층입니다 . http://cs231n.github.io/understanding-cnn/ . 이를 통해 첫 번째 숨겨진 레이어를 원시 픽셀로 구성된 이미지를 나타내는 학습으로 해석하여 각 좌표가 이미지의 작은 영역과 필터가 일치하는 텐서로 해석 할 수 있습니다. 다음 계층은 이러한 필터 활성화로 작업하고 있습니다.

첫 번째 숨겨진 레이어를 이해하는 것은 어렵지 않습니다. 필터를보고 입력 이미지에 직접 적용되기 때문에 필터가 어떻게 작동하는지 확인할 수 있기 때문입니다. 예를 들어 흑백 이미지로 작업하고 있으며 (필터가 3D가 아닌 2D 임) 와 같은 필터가 있다고 가정 해 보겠습니다.

[010141010].

이것을 이미지의 3x3 영역에 적용한다고 가정합니다 (바이어스 용어는 무시). 모든 픽셀의 색상이 같으면 취소되므로 됩니다. 그러나 상반부가 하반기와 다르면 잠재적으로 큰 가치를 얻습니다. 실제로이 필터는 에지 검출기이며 실제로 이미지에 적용하고 결과를 확인하여 알아낼 수 있습니다. 그러나 전체 문제는 필터를 적용 할 대상을 해석하는 방법을 모르기 때문에 더 깊은 계층을 이해하기가 훨씬 어렵습니다.0

Erhan et al (2009) 의이 논문이것에 동의한다. 그들은 첫 번째 숨겨진 레이어 시각화가 일반적이지만 2009 년에 다시 시작되었지만 더 깊은 레이어를 시각화하는 것이 어렵다고 말한다. 그 논문에서 :

이 조사의 주요 실험 결과는 매우 놀랍습니다. 이미지 공간의 함수로서 입력 이미지에 대한 내부 장치의 반응이 단조로운 것처럼 보이거나 최소한 테스트 된 모든 임의의 초기화에 대해 최대 값이 안정적이고 일관되게 발견됩니다 . 이 지배적 인 모드를 찾는 것이 비교적 쉽고, 그것을 표시하면 장치가하는 일의 좋은 특성을 제공하기 때문에 이것은 흥미 롭습니다.

Chris Olah et al ( https://distill.pub/2017/feature-visualization/ )은이를 바탕으로 일반적으로 (1) 네트워크가 무엇인지 이해하기 위해 큰 활성화로 이어지는 이미지를 생성하는 방법에 대해 논의합니다. 찾고있다; 또는 (2) 실제 입력 이미지를 가져 와서 이미지의 다른 부분이 어떻게 네트워크를 활성화하는지 확인하십시오. 그 포스트는 (1)에 중점을 둡니다.

Olah 등의 관련 기사에서 가져온 아래 이미지에서 저자는 네트워크의 여러 측면을 검사 할 수 있습니다. 가장 왼쪽의 이미지는 입력 이미지 공간에서 특정 뉴런의 활성화를 최적화 한 결과 등을 보여줍니다.

C. Olah et al

이것에 대해 더 깊이 이해하고 싶다면이 기사 전체를 읽는 것이 좋습니다. 참고 문헌을 읽으면 이것으로 무엇을했는지 잘 이해해야합니다.

물론 이것은 인간으로서 입력을 이해할 수있는 이미지만을위한 것입니다. 큰 숫자의 벡터와 같이 해석하기 어려운 무언가로 작업하는 경우 멋진 시각화를 할 수는 없지만 원칙적으로 다양한 뉴런, 레이어 등을 평가하기 위해 이러한 기술을 고려할 수 있습니다 .


2
마지막 단락에서 특히 +1. 저는 개인적으로 비전 사람들이 이러한 많은 매개 변수에 대한 시각화를 끝내고 있다고 생각합니다.
Haitao Du

신뢰할만한 참고 문헌으로 잘 쓰여진 긴 대답은 물론 +1입니다.
Haitao Du

1
@ hxd1011 고맙습니다. 그리고 Olah et al은 그 층이 기본과 같고 층이 나타내는 공간에 관한 것이므로 단일 뉴런을 최대화하는 것을 보는 것이 실제로 공평하지 않다고 생각합니다. 정확한 기초 벡터. 따라서 재미있게 볼 수 있지만, 많은 시각화는 통찰력이 없을 수도 있습니다.
jld

1
또한 일반적인 오해는 첫 번째 레이어 필터를 사용할 때 주어진 뉴런의 출력을 최대화하는 이미지 패치가 해당 필터와 똑같이 보인다는 것입니다. 사실, 뉴런의 출력을 최대화하는 패치는 필터 일치가 아니라 컨벌루션 때문에 필터의 숫자 값과 유사한 것으로 보이지 않습니다. 그것이 바로 적대적 사례가 존재한다고 생각하는 곳입니다.
Lugi

Olah et al. 블로그 게시물은 훌륭하지만 실수를합니다. "최대 활성화를 위해 최적화"(정확하지는 않지만 가깝습니다), 훈련 세트의 그림처럼 보이지 않는 그림을 찾고 CNN이 우리와 다르게 "보는"결론을 내립니다. 결론은 분명히 사실이지만, 추론에 결함이 있습니다. 고차원 분포의 모드는 해당 분포의 전형적인 표본처럼 보이지 않습니다. 다시 말해, CNN이 고양이를 분류해야하기 때문에 분포 모드는 고양이가 아니라 "악몽 고양이"여야합니다.
DeltaIV

7

신경망은 블랙 박스 모델 중 하나로서 "알기 쉬운"규칙 또는 학습 내용을 제공하지 않습니다.

특히, 학습 된 것은 모델의 매개 변수이지만 매개 변수는 클 수 있습니다. 수십만 개의 매개 변수가 매우 정상입니다.

또한 배운 중요한 기능에 대해서도 명확하지 않으며 모델이 각 기능을 사용하는 방법을 일반 영어로 쉽게 표현할 수없는 복잡한 조작을 통해 모델이 모든 기능을 사용한다는 것을 이해할 수 있습니다.


실제로, 활성화 함수로서 로지스틱 함수를 갖는 1 계층 신경망 (숨겨지지 않은 레이어 없음)은 로지스틱 회귀와 동일하다. 로지스틱 회귀 분석은 매우 풍부합니다. 여기서 하나의 예이다. 그러나 복잡한 신경망 / 더 숨겨진 계층에서는 그러한 해석이 적용되지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.