과학자들은 인공 신경 네트워크 내에서 무슨 일이 일어나고 있는지 알고 있습니까?


69

과학자 들이나 연구 전문가들은 부엌에서 최소한 수백만 개의 연결이 즉시 발생하는 복잡한 "심층"신경망 내부에서 무슨 일이 일어나고 있는지 알고 있습니까? 그들은이 과정의 과정 (예 : 내부에서 일어나는 일과 작동 방식)을 이해합니까, 아니면 토론의 대상입니까?

예를 들어이 연구 는 다음과 같이 말합니다.

그러나 실적이 좋은 이유 또는 개선 방법에 대한 명확한 이해는 없습니다 .

이것이 과학자들이 실제로 복잡한 컨볼 루션 네트워크 모델이 어떻게 작동하는지 모른다는 것을 의미합니까?


" 그들은 왜 그렇게 잘 수행 "-그들은 정말 그렇게 잘 수행하지 않습니다. 대부분의 새로운 기술과 마찬가지로 실패가보고됩니다.
Tomáš Zato

답변:


51

훈련 된 신경망을보다 해석 가능하고 "블랙 박스", 구체적으로 언급 한 컨볼 루션 신경망 처럼 만들기위한 많은 접근 방법 이 있습니다.

활성화 및 레이어 가중치 시각화

활성화 시각화 는 첫 번째 명백하고 간단한 것입니다. ReLU 네트워크의 경우 활성화는 일반적으로 상대적으로 약하고 밀도가 높은 것으로 시작되지만 교육이 진행됨에 따라 활성화는 일반적으로 더 희박 해지고 (대부분의 값은 0 임) 현지화됩니다. 이것은 때때로 이미지를 볼 때 정확히 특정 레이어가 초점을 맞춘 것을 보여줍니다.

내가 언급하고 싶은 활성화에 대한 또 다른 위대한 작품은 풀링 및 정규화 레이어를 포함하여 각 레이어에서 모든 뉴런의 반응을 보여주는 딥 비스 입니다. 그들이 그것을 설명 하는 방법은 다음과 같습니다 .

요컨대, 우리는 뉴런이 배운 기능을 "삼각형"할 수있는 몇 가지 방법을 모아서 DNN의 작동 방식을 더 잘 이해할 수 있도록 도와줍니다.

두 번째 일반적인 전략은 가중치 (필터)를 시각화하는 것입니다. 이것들은 일반적으로 원시 픽셀 데이터를 직접보고있는 첫 번째 CONV 레이어에서 가장 해석 가능하지만 네트워크에서 필터 가중치를 더 깊게 표시 할 수도 있습니다. 예를 들어 첫 번째 레이어는 일반적으로 가장자리와 얼룩을 기본적으로 감지하는 개 버러와 같은 필터를 학습합니다.

첫 번째 레이어 필터

폐색 실험

여기 아이디어가 있습니다. ConvNet이 이미지를 개로 분류한다고 가정하십시오. 배경이나 기타 잡다한 물건의 상황에 대한 단서가 아니라 이미지의 개를 실제로 집어 들고 있다는 것을 어떻게 확신 할 수 있습니까?

분류 예측이 오는 이미지의 어느 부분을 조사하는 한 가지 방법은 폐색기 객체의 위치 함수로서 관심 클래스 (예를 들어, 개 클래스)의 확률을 플로팅하는 것입니다. 이미지의 영역을 반복하고 이미지를 모두 0으로 바꾸고 분류 결과를 확인하면 특정 이미지에서 네트워크에 가장 중요한 2 차원 히트 맵을 만들 수 있습니다. 이 방법은 Matthew Zeiler의 Convolutional Networks의 시각화 및 이해 (귀하의 질문에서 참조)에 사용되었습니다.

폐색 실험

디컨 볼 루션

다른 접근법은 기본적으로 뉴런이 찾고있는 특정 뉴런을 발생시키는 이미지를 합성하는 것입니다. 아이디어는 가중치와 관련하여 일반적인 그라디언트 대신 이미지에 대한 그라디언트를 계산하는 것입니다. 따라서 레이어를 선택하고 하나의 뉴런과 백프로 프를 이미지를 제외하고 그라디언트를 모두 0으로 설정하십시오.

Deconv는 실제로 더 나은 이미지를 만들기 위해 유도 된 역 전파 ( guided backpropagation) 를 수행하지만 세부 사항 일뿐입니다.

다른 신경망에 대한 유사한 접근법

Andrej Karpathy의이 게시물을 강력히 추천합니다. 이 게시물 에서 RNN (Recurrent Neural Networks)을 많이 사용합니다. 결국 그는 비슷한 기술을 적용하여 뉴런이 실제로 무엇을 배우는지 확인합니다.

이 이미지에서 강조된 뉴런은 URL에 대해 매우 흥미를 느끼고 URL 외부에서 꺼집니다. LSTM은이 뉴런을 사용하여 URL 내에 있는지 여부를 기억합니다.

결론

나는이 연구 분야에서 작은 부분의 결과만을 언급했다. 매년 신경망 내부 활동에 빛을 비추는 것은 매우 활동적이고 새로운 방법입니다.

당신의 질문에 대답하기 위해, 과학자들이 아직 모르는 것이 항상 있지만, 많은 경우에 그들은 내부에서 진행되고있는 것에 대한 좋은 그림 (문학적)을 가지고 있으며 많은 특정한 질문에 대답 할 수 있습니다.

나에게 당신의 질문에 대한 인용은 단순히 정확성 개선뿐만 아니라 네트워크의 내부 구조에 대한 연구의 중요성을 강조합니다. Matt Zieler 가이 대화 에서 알 수 있듯이 때때로 우수한 시각화는 결과적으로 더 나은 정확도로 이어질 수 있습니다.


시각화는 알고 있습니까? 아니면 무지에 대한 트렌디 한 해결책일까요? 아마도 수학적 개발은 가장 엄격하고 부족한 영역 일 것입니다.
FauChristian

1
@FauChristian 여기에 요점이 없습니다. 신경망 내부의 가중치와 모든 수학 연산 은 어셈블리 코드와 마찬가지로 정확하게 알려져 있습니다. 이것은 의심의 여지가 없습니다. 시각화는 특정 운영이 발생 하는 이유 를 이해 하고 우수한 성능을 제공합니다. 다시 한 번 고전적인 컴퓨터 과학 알고리즘과 같습니다. 또한 답변에 언급 된 Zieler의 논문을 읽으십시오.
Maxim

1
저학년으로 공부하면서 그 점을 놓치지 않았습니다. 그래도 내 의견에 게으르다. 커널을 나타내는 흑백 그리드는 물결 모양의 가장자리 감지 커널 상태의 다소 혼란스러운 매트릭스를 보여주기 때문에 흥미 롭습니다. 크기 분포, 각도 분포 및 기울기 분포는 무엇입니까? 이러한 분포는 (a) 특정 데이터 세트에 특정한 초과 적합 또는 (b) 더 큰 계산 효율을 가진 기능 블록으로 대체 될 수있는 일반적인 패턴을 나타냅니다. ~~ 한 번 비주얼에서 알 수 없습니다.
FauChristian

1
그렇습니다.이 모든 분포 (및 많은 다른 것)는 여기서 계산되지 않습니다. 그것은 그들이 의미하지 않는다 할 수 없습니다 또는 계산. 또한 모델 해석이 시각화와 관련이 없음을 의미하지는 않습니다. 필자는 지엘 러 (Zieler)의 "컨볼 루션 네트워크 시각화 및 이해"를 다시 한 번 읽어 보길 바란다.
Maxim

우리는 그것을 실험실에서 가지고 있습니다. 내 동료는 몇 가지 코드 예제를 살펴 보았습니다. 통계 측면에서 살펴 보겠습니다. 고마워.
FauChristian

27

"무슨 일이 일어나고 있는지 알기"라는 의미에 따라 다릅니다.

개념적으로 예 : ANN은 비선형 회귀를 수행합니다. ANN의 가중치 매트릭스 / 활성화 함수로 표시되는 실제 표현식은 기호 형식으로 명시 적으로 확장 될 수 있습니다 (예 : 와 같은 하위 표현식 포함) ).1/1+e1/1+e

그러나 '알다'는 말로 특정 (블랙 박스) ANN의 출력을 예측하는 것을 의미한다면 , 다른 방법으로 장애물이 ANN에 높은 자유도 를 갖는 혼돈의 존재입니다 .

다음은 시각화를 통해 ANN을 이해하는 Hod Lipson의 비교적 최근의 작업 입니다.


13

짧은 대답은 아니오 입니다.

모형 해석 성은 현재 연구 (성배에 대한 생각 등)의 과잉 활성 및 과열 영역이며, 최근에는 다양한 작업에서 딥 러닝 모델의 (종종 엄청난) 성공으로 인해 최근에 제기되었습니다. 이 모델들은 현재 블랙 박스 일 뿐이며 우리는 자연스럽게 불편 함을 느낍니다.

다음은이 주제에 대한 일반적인 자료 (2017 년 12 월 기준)입니다.

그리고 더 실용적인 수준 (코드 등) :

최근에 딥 러닝 신경망에 대한 이론적 기반 구축을 시작하려는 관심이 급증했습니다. 이와 관련하여 유명한 통계 학자 및 압축 감지 개척자 인 David Donoho는 최근 (2017 년 가을) Stanford, 딥 러닝 이론 (STATS 385) 에서 거의 모든 자료를 온라인으로 이용할 수 있는 코스를 제공하기 시작했습니다 . 강력히 추천합니다 ...

업데이트 :


안녕하세요. 이것은 좋은 대답 인 것 같지만 정리하고 약간 정리해야합니다. 첫 번째 자료는 가장 유용하고 일반적이어야합니다. 그런 다음 더 구체적인 리소스와 연구 논문을 나열 할 수 있습니다 (IMHO). 나중에 트위터 스레드 등을 나열 할 수 있습니다.
nbro


8

나는 특정 인용이 편리하지 않다는 것을 두려워하지만 Andrew Ng와 Geoffrey Hinton과 같은 전문가들이 우리가 신경망을 실제로 이해하지 못한다고 분명히 말한 것을 보았습니다. 즉, 우리는 그들이 어떻게 작동 하는지에 대해 이해 하지만 (예를 들어, 전파의 수학), 그들이 작동 하는지 이해하지 못합니다 . 그것은 미묘한 차이의 일종이지만, 요점은 아닙니다. 우리는 당신이 공을 가지고 노는 고양이를 인식하기 위해 얼마나 많은 무게에서 정확하게 이동하는지에 대한 가장 깊은 세부 사항을 이해하지 못한다는 것입니다.

적어도 이미지 인식의 관점에서, 내가 들었던 가장 좋은 설명은 신경망의 연속적인 계층이 이전 수준에서보다 세분화 된 기능으로 구성된 더 정교한 기능을 학습한다는 것입니다. 즉, 첫 번째 레이어는 "가장자리"또는 "직선"을 인식 할 수 있습니다. 다음 레이어는 "box"또는 "triangle"과 같은 기하학적 모양을 학습 한 다음 상위 레이어는 이전 기능을 기반으로 "코"또는 "눈"을 학습 한 다음 상위 레벨 레이어는 여전히 "얼굴"을 학습합니다. "눈", "코", "턱"등으로부터 올라갑니다. 그러나 그 점을 이해하더라도 여전히 가설 적이거나 완전히 자세하게 이해되지는 않습니다.


2
실제 인용문을 읽고 싶습니다. 가장 넓은 개념 수준에서 이유 는 "회귀 문제에서 오류를 줄이기 위해 훈련 된 범용 함수 근 사기"입니다.
NietzscheanAI

추적 할 수 있는지 살펴 보겠습니다. 나는 내가 생각하고있는 Geoffrey Hinton의 인용구가 비디오에 있다고 확신한다. 그의 Coursera Class 나 그가 유튜브에 올린 일부 비디오에서 나온 것이다. 찾을 수 있으면 답변을 편집하여 링크하겠습니다.
mindcrime

나는 잊지 않았다. 나는 약간의 자유 시간이있을 때 그들을 찾으려고 노력할 것이다. 내가 생각하는 것 중 적어도 하나는 Coursera 과정의 일부인 비디오에서 나온 것 같습니다.
mindcrime

연구 는 동일한 성과를내는 데 도움이 될 수 있습니다.
kenorb

4

다음은 Carlos E. Perez의 답변 입니다. 딥 러닝의 이론은 무엇입니까?

[...]

딥 러닝의 기본 수학은 수십 년 동안 존재 해 왔지만 오늘날 우리가 보는 인상적인 결과는 훨씬 빠른 하드웨어, 더 많은 데이터 및 방법의 점진적 개선의 결과입니다.

딥 러닝은 일반적으로 목표가 모델 오류의 함수 인 최적화 문제로 구성 될 수 있습니다. 이 최적화 문제는 모델의 파라미터 공간 (즉, 신경망의 가중치)이 매우 높은 차원에서 문제를 야기한다는 점을 고려하기가 매우 어렵습니다. 이 공간을 탐색하는 데 최적화 알고리즘이 오래 걸릴 수 있습니다. 더욱이, 문제가 볼록하지 않았으며 계산이 영원히 로컬 최소 점에 빠질 것이라는 확인되지 않은 신념이있었습니다.

[...]

기계가 실제로 어 트랙터로 수렴하거나 복잡한 패턴을 인식하는 법을 배우는 이유에 대한 이론은 여전히 ​​알려져 있지 않습니다.

요약하자면 몇 가지 아이디어가 있지만 확실하지 않습니다.


3

과학자들은 인공 신경 네트워크 내에서 무슨 일이 일어나고 있는지 알고 있습니까?

과학자 들이나 연구 전문가들은 부엌에서 최소한 수백만 개의 연결이 즉시 발생하는 복잡한 "심층"신경망 내부에서 무슨 일이 일어나고 있는지 알고 있습니까?

"부엌에서 아는 것"은 "상세하게 아는 것"을 의미한다고 생각합니까?

일련의 비유를 드리겠습니다.

  1. 비행기 엔지니어는 부엌에서 비행기 안에서 어떤 일이 발생하는지 알고 있습니까?
  2. 칩 설계자는 자신이 설계 한 칩에서 어떤 일이 발생하는지 자세히 알고 있습니까?
  3. 토목 기사는 자신이 지은 집에 대한 모든 것을 알고 있습니까?

악마는 자세하게 설명되어 있지만 여기서 중요한 점은 인공 구조물에 관한 것입니다. 그들은 무작위로 나타나지 않습니다. 유용한 정보를 얻으려면 많은 지식이 필요합니다. Neural Networks의 경우, 핵심 아이디어 (Rosenblatt perceptron, 1957)가 첫 번째 응용 프로그램 (US Postal Service, 1989)을 발표 한 후 약 40 년이 걸렸습니다. 그리고 거기에서 다시 13 년 동안 활발한 시스템에 대한 인상적인 시스템 (ImageNet 2012).

우리가 잘 아는 것은 훈련의 작동 방식 입니다. 구현해야하기 때문입니다. 아주 작은 구조에서 우리는 그것을 자세히 알고 있습니다.

컴퓨터를 생각하십시오. 칩 설계자는 칩 작동 방식을 잘 알고 있습니다. 그러나 그들은 리눅스 운영 체제가 어떻게 작동하는지에 대한 아주 대략적인 아이디어를 가질 것입니다.

또 다른 예는 물리와 화학입니다. 물리는 우주의 핵심 힘을 나타냅니다. 화학에 관한 모든 것을 알고 있다는 의미입니까? 지옥 아니야! "완벽한"물리학자는 화학의 모든 것을 설명 할 수 있지만 거의 쓸모가 없을 것입니다. 그는 더 많은 정보가 필요하지만 관련이없는 부분은 건너 뛸 수 없습니다. 그가 너무 많이 "확대"했기 때문에 실제로는 흥미롭지도 중요하지 않은 세부 사항도 고려합니다. 물리학 자의 지식은 틀리지 않습니다. 아마도 화학자로부터 지식을 추론 할 수도 있습니다. 그러나 분자 상호 작용에 대한이 "높은 수준의"이해는 빠졌다.

이 두 예제의 주요 통찰력은 추상화 계층입니다. 간단한 구조로 복잡성을 만들 수 있습니다 .

또 뭐요?

우리 는 디자인 하는 신경망으로 원칙적으로 달성 할 수있는 것을 잘 알고 있습니다 .

  • 아무리 정교하더라도 Go를 재생하도록 설계된 신경망은 체스조차 할 수 없습니다. 물론, 그 주위에 다른 추상화 레이어를 추가하고 사물을 결합 할 수 있습니다. 그러나이 접근법에는 인간이 필요합니다.
  • 번데기와 페르시아 고양이 만 본 고양이와 개를 구별하기 위해 설계된 신경망은 요크셔 테리어를 결정해야 할 때 실제로 성능이 떨어질 것입니다.

물론 신경망에 대한 분석적 접근 방식이 있습니다. 나는 Convolutional Neural Network Architectures의 분석과 최적화에 관한 석사 논문을 썼다 . 이와 관련하여 LIME (Local Interpretable Model-Agnostic Descriptions)은 훌륭합니다.

여기에 이미지 설명을 입력하십시오


1
과학자들은 NN을 문제의 함수로 만들었 기 때문에 믿기 어렵습니다 ... 특히 특정 아키텍처 나 특정 하이퍼 파라미터 세트가 왜 효과가 좋은지 아무도 모르는 경우 주어진 문제 ... 나는 정확한 하이퍼 파라미터에 대해 이야기하고 있지 않다 그러나 아무도는 대략적인 하이퍼 파라미터는 주어진 문제에 대해 작동 할 수 있습니다 무엇의 일반적인 의미 (문제가 잘 정의되어있다) ..이 보이지 않는다 그래서 어떤 과학자들은 내부에 무슨 일이 일어나고 있는지 몰라 NN.
DuttaA

초기 자동차 / 항공기 엔지니어를 생각하십시오. 항공기 / 자동차 내부에서 무슨 일이 일어나고 있는지 알지 못합니까? 왜냐하면 그들은 공기 역학이 아니기 때문에 비행기를 만들지 않았기 때문입니까?
마틴 토마

1
년 OFC는 ... 때문에 기술의 부족으로 뭔가를 알면서 ... theoretically..I을 모르는 다른 뭔가가 비행기의 기술은 우리가 mathematically..So 기술을 잊지 처리 할 수 없습니다 여기에 case..While 된 생각인가
DuttaA

1

방금 뭔가를 추가하고 싶었습니다.

그것은 과학자가 의미하는 바에 달려 있습니다.

저는 전기 공학 박사 학위를 받았으며 회귀, 예측 제어, 적응 제어 및 분류 문제와 같은 문제에서 많은 연구원들이 ANN과 함께 일하는 것을 보았습니다.

코딩 기술의 부족이 주요 단점이라는 것을 분명히 알 수 있습니다. 그리고 그들은 ANN 내부에서 일어나는 일을 실제로 이해하지 못합니다. 이제 Deep 에 대해 이야기조차하지 않습니다 . 당신이 그들에게 말하는 것은 : 데이터를 주면 적응할 것입니다!


1
비록 당신이 개념적으로는 옳을 지 모르지만, 당신은 해답이 아니라 사회 학적 관찰로 나오기 위해 당신의 답을 다시 쓰면 어떤 표를 얻거나 건설적인 도움을받을 수 있습니다.
FauChristian
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.