딥 러닝 모델을 해석 할 수 없다고 말할 수 있습니까? 노드 기능이 있습니까?


27

통계 및 머신 러닝 모델의 경우 1) 알고리즘 전체, 2) 알고리즘의 일부, 3) 특정 입력의 알고리즘 부분,이 3 가지 레벨은 각각 두 부분으로 나뉘어져 있습니다. 하나는 훈련 용이고 다른 하나는 기능 평가 용입니다. 마지막 두 부분은 첫 부분보다 훨씬 더 가깝습니다. 나는 # 2에 대해 묻고 있는데, 이것은 일반적으로 # 3에 대한 더 나은 이해로 이어진다). (그들이 '해석 가능성'이 의미하는 것이 아니라면 어떻게 생각해야합니까?)

해석 가능성에 관한 한, 로지스틱 회귀 분석은 해석하기 가장 쉬운 방법 중 하나입니다. 이 인스턴스가 임계 값을 통과 한 이유는 무엇입니까? 그 인스턴스에는이 특정 긍정적 인 특징이 있었고 모델에서 더 큰 계수를 갖기 때문입니다. 너무 분명하다!

신경망은 해석하기 어려운 모델의 전형적인 예입니다. 모든 계수 무엇을 의미 합니까? 그것들은 모두 복잡한 방법으로 합쳐져서 특정 계수가 실제로 무엇을하고 있는지 말하기 어렵습니다.

그러나 모든 심층 신경망이 나오면 상황이 더 명확 해집니다. DL 모델 (예 : 비전)은 초기 레이어에서 가장자리 또는 방향과 같은 것을 캡처하는 것으로 보이며, 이후 레이어에서는 일부 노드가 실제로 의미론적인 것처럼 보입니다 (잠언 '할머니 셀' 과 같은 ). 예를 들면 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

( '딥 러닝에 대해 배우기'에서 )

이것은 프리젠 테이션을 위해 손으로 만든 그래픽 ( 많은 것 중 하나 )이므로 매우 회의적입니다. 그러나 누군가 그것이 그것이 어떻게 작동하는지 생각한다는 증거입니다 .

과거에는 인식 할 수있는 기능을 찾기에 충분한 레이어가 없었습니다. 모델은 성공적이었고 특정 모델을 사후 분석하기가 쉽지 않았습니다.

그러나 아마도 그래픽은 희망적인 생각 일 것입니다. 아마도 NN은 진정으로 조사 할 수 없을 것입니다.

그러나 그림으로 표시된 노드가있는 많은 그래픽도 실제로 매력적입니다.

DL 노드는 실제로 기능에 해당합니까?


6
나는이 질문의 전제를 보지 못했다. 신경망이 더 복잡 해졌고 더 나은 예측을 제공한다고해서 더 이상 해석 할 수있는 것은 아닙니다. 복잡성 / 더 나은 예측 <-> 단순성 / 더 나은 해석의 반대가 일반적입니다.
AdamO

4
@AdamO는 정확히 맞습니다. 따라서 회귀 트리 (재귀 분할)는 결과가 잘못 되기 때문에 해석 할 수 없습니다 . 그들은 휘발성이기 때문에 잘못되었습니다. 새 샘플을 얻으면 트리가 임의로 다를 수 있습니다. 단일 나무는 예측 차별과 관련하여 경쟁력이 없습니다. Parsimony는 종종 예측 차별의 적입니다. 그리고 생의학 분야에서 AI / ML 결과는 해석 할 수 없었습니다.
Frank Harrell

1
이 문서를 참조하십시오 AI 연구원은 기계 학습은 연금술이라고 주장 sciencemag.org/news/2018/05/...
마이크 헌터

4
본문의 대담한 질문과 제목의 질문은 매우 다릅니다. 내 것을 포함한 모든 답변이 제목의 질문을 다루는 것처럼 보입니다. 아마도 자체 스레드의 노드와 기능에 대해 더 좁은 질문을 할 수 있습니까? 그러나 그렇게하기 전에, 당신은 긍정적 인 질문에 당신의 대담한 질문에 답하는 논문에 이미 연결되어 있다고 생각하고, 질문하기 전에 답에서 무엇을 배우고 싶은지 고려하십시오.
Sycorax는 Reinstate Monica가

@Sycorax 방금 추가 한 링크는 논문이 아니라 블로그 게시물에 대한 것이므로 긍정적 인 견해에 매우 회의적입니다. 제목에서 DL에 대해 묻는 다양한 해석 가능성은 본문에서 굵은 글씨로 간주됩니다.
Mitch

답변:


30

심층 모델의 해석은 여전히 ​​어려운 과제입니다.

  1. 귀하의 게시물에는 컴퓨터 비전 응용 프로그램에 대한 CNN 만 언급되어 있지만 (깊거나 얕은) 피드 포워드 네트워크 및 반복 네트워크는 이해하기 어렵습니다.

  2. 픽셀 패치의 가장자리 및 방향과 같은 명백한 "기능 검출기"구조를 갖는 CNN의 경우에도 이러한 하위 레벨 기능이 어떻게 위쪽으로 모여 있는지 또는 이러한 비전 기능이 어떻게 진행되는지 정확하게 알 수는 없습니다. 완전히 연결된 계층에 집계됩니다.

  3. 적대적 예는 네트워크의 해석이 어려운 방법을 보여줍니다. 적대적인 예에는 약간의 수정이 있었지만 모델의 결정이 크게 바뀌 었습니다. 이미지 분류의 맥락에서, 이미지에 추가 된 소량의 노이즈는 도마뱀의 이미지를 개와 같은 다른 동물과 같이 매우 자신있게 분류 할 수 있습니다.

이는 소량의 소음과 분류 결정에서 (큰) 변화 사이에 강력하고 예측할 수없는 관계가 있다는 점에서 해석 성과 관련이 있습니다. 이러한 네트워크의 작동 방식에 대해 생각하면 의미가 있습니다. 이전 계층에서의 계산은 앞으로 전파되므로 작고 중요하지 않은 사람에게 발생하는 많은 오류가 확대되고 더 많은 계산이 수행 될 때 누적됩니다. "손상된"입력.

반면에, 적대적인 예의 존재는 노드가 특정 기능 또는 클래스로 해석되는 것이 어렵다는 것을 보여줍니다. 왜냐하면 노드가 활성화되었다는 사실은 원본 이미지의 실제 내용과 거의 관련이 없기 때문입니다. 이 관계는 원본 이미지와 관련하여 실제로 예측할 수 없습니다. 그러나 아래의 예시 이미지에서 인간은 이미지의 내용에 대해 속지 않았습니다. 개에 대한 깃대를 혼동하지 않을 것입니다. 이러한 결정을 어떻게 종합적으로 (작은 소음 패턴으로 도마뱀을 개로 바꾸거나 깃대를 개로 옮김) 또는 작은 조각으로 (몇몇 특징 검출기가 실제 이미지보다 노이즈 패턴에 더 민감 함) 해석 할 수 있는가 함유량)?

HAAM은 고조파 기능을 사용하여 적대적 이미지를 생성하는 유망한 새로운 방법입니다. ( "고조파 대적 공격 방법"Wen Heng, Shuchang Zhou, Tingting Jiang.)이 방법을 사용하여 생성 된 이미지는 조명 / 그림자 효과를 에뮬레이트하는 데 사용될 수 있으며, 일반적으로 사람이 변경된 것으로 감지하기가 훨씬 더 어렵습니다.

예를 들어, Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi 및 Pascal Frossard의 " 범용 대적 섭동 " 에서 가져온이 이미지를 참조하십시오 . 이 이미지는 내가 처음 접한 적의 이미지 중 하나이기 때문에이 이미지를 선택했습니다. 이 이미지는 특정 노이즈 패턴이 이미지 분류 결정에 이상한 영향을 미치도록합니다. 특히 입력 이미지를 약간 수정하고 분류자가 결과를 개라고 생각하게 할 수 있습니다. 근본적인 원본 이미지는 여전히 분명합니다. 모든 경우에, 인간은 개가 아닌 이미지가 개라고 생각하는 데 혼동하지 않을 것입니다. 대적

다음 은 Ian J. Goodfellow, Jonathon Shlens 및 Christian Szegedy의 "정규 및 해고를위한 광고 사례 "의보다 표준적인 논문의 두 번째 예입니다 . 추가 된 노이즈는 결과 이미지에서 완전히 구별 할 수 없지만 결과는 팬더 대신 긴팔 원숭이라는 잘못된 결과로 매우 확실하게 분류됩니다. 이 경우, 기븐스와 팬더는 가장 넓은 의미에서 생물학적으로나 심미적으로 적어도 유사하기 때문에 두 클래스 사이에는 적어도 유사성이 있습니다. 팬더

이 세 번째 예는 João Monteiro, Zahid Akhtar 및 Tiago H. Falk의 " 이중 모델 결정 불일치에 기반한 일반화 적대적 예 탐지 "에서 발췌 한 것입니다 . 그것은 입증하는 노이즈 패턴이 인간을 구별 할 수있다 그러나 아직도 분류를 혼동.구분할 수 없는

참고로, 머드 강아지는 사지와 꼬리가 4 개인 어두운 색의 동물이므로 실제로 금붕어와 많이 유사하지는 않습니다. 진흙탕

  1. 오늘이 논문을 찾았습니다. Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus. " 신경망의 흥미로운 속성 ". 초록에는 다음과 같은 흥미로운 인용문이 포함되어 있습니다.

첫째, 우리는 다양한 단위 분석 방법에 따라 개별 고수준 단위와 고수준 단위의 무작위 선형 조합 사이에 차이가 없음을 발견했습니다. 그것은 높은 단위의 신경망의 의미 정보를 포함하는 공간이 개별 단위가 아닌 공간임을 제안합니다.

따라서, '피처 탐지기'를 더 높은 수준에 두지 않고 노드는 단지 네트워크가 데이터를 모델링하는 데 사용하는 피처 공간의 좌표를 나타냅니다.


2
좋은 지적입니다. 그러나 가장 간단한 모델 (물류, 의사 결정 트리)에서도 특정 계수 / 임계 값이 왜인지 모호합니다 (그러나 내가 요구하는 것과 같은 해석 가능성은 아닙니다). 완전히 무관하지는 않지만 언어 / RNN / LSTM에 대한 좋은 대적 연구 / 예가 있습니까?
Mitch

7
또한 로지스틱 회귀와 같은 단순한 모델조차도 공격에 취약하다는 점을 지적합니다. 실제로 Goodfellow et. 알. 이러한 공격에 저항 할 수있는 기능이 부족한 모델은 얕습니다. 그러나 우리는 여전히 로지스틱 회귀를 해석 할 수 있다고 주장합니다.
shimao

2
두 가지 이유로 무질서한 포인트 3을 제외하고는 정답입니다. 1) 인간이 심각한 시각 장애를 가지고 있지 않는 한, 적대적 이미지가 "인간에게, 수정되지 않은 이미지와 구별되지 않는"경우는 거의 없다. 거의 항상 이미지에 이미지에 노이즈 패턴이 추가되어 있으며 특히 배경에서 소위 JPEG 노이즈와 유사한 미학적 방식을 볼 수 있습니다 (시각적으로 만 섭동의 실제 통계 속성이 다릅니다). 놀랍게도 분류 기가 그것이 손상된 고양이가 아닌 선의 고양이 인지 확실하지 않다는 것은 아닙니다. 1 /
DeltaIV

2
2 / 이미지, 그러나 그것이 버스인지는 거의 확실합니다. 2) 적대적 사례는 해석 성과 어떤 관련이 있습니까? 선형 모델, 일반화 된 선형 모델 및 의사 결정 트리는 적대적인 예에 ​​취약합니다. 실제로 ResNet을 속이는 것보다 로지스틱 회귀를 속이는 적대적인 예를 찾는 것이 더 쉽습니다 . 그럼에도 불구하고 우리는 일반적으로 (G) LM을 해석 가능한 모델로 간주하므로 적대적 예의 존재를 모델의 해석 가능성과 연관시키지 않습니다.
DeltaIV

3
@DeltaIV 요점은 당신이 소음을 알아 차릴 수 없다는 것이 아닙니다. 너무 많이 저하 된 모든 jpeg에는 노이즈가 있습니다. 요점은 DNN이 미친 일을하도록 잡음을 조작 할 수 있다는 것인데, 잡음 자체를 볼 수 있더라도 인간 관찰자에게는 의미가없는 것들입니다.
Hong Ooi

13

레이어는 우리가 원하는만큼 연속적으로 더 추상적 인 피처로 매핑되지 않습니다. 이것을 보는 좋은 방법은 두 개의 매우 유명한 아키텍처를 비교하는 것입니다.

VGG16 은 간혹 풀링 레이어 (전통적인 아키텍처)로 쌓인 많은 컨볼 루션 레이어로 구성됩니다.

그 이후로 사람들은 각 아키텍처가 이전 레이어뿐만 아니라 모델에서 더 멀리 떨어진 하나 이상의 레이어에 연결된 잔여 아키텍처 설계로 이동했습니다. ResNet 은이 작업을 가장 먼저 수행 한 제품 중 하나이며 사용하는 변형에 따라 약 100 개의 레이어가 있습니다.

VGG16 및 유사한 네트워크에는 계층이 다소 해석 가능한 방식으로 작동하지만 더 높은 수준의 기능을 학습하는 반면 ResNets는이를 수행하지 않습니다. 대신 사람들은 정교화 기능을 유지하여 더 정확하게 만들 거나 변장 된 여러 얕은 네트워크에 불과 하다고 제안했습니다 .

이미지 분류 및 객체 감지에서 ResNet 및 이와 유사한 아키텍처가 VGG를 능숙하게 능가하지만 VGG의 간단한 상향식 기능 계층 구조가 매우 중요한 일부 응용 프로그램이있는 것 같습니다. 좋은 토론 은 여기 를 참조 하십시오 .

따라서 더 현대적인 아키텍처가 더 이상 그림에 맞지 않는 것처럼 보이므로 CNN이 아직 해석 가능하다고 말할 수는 없습니다.


아마도 DL 네트워크의 완전히 설계되지 않은 / 설계되지 않은 토폴로지는 큰 임의의 부분 순서 세트 일 것이고, 센서를 입력하고 원하는 기능을 출력 할 것입니다 (즉, 계층화를 전혀 시도하지 않고 훈련을 이해하게합니다). 여기의 노드는 매우 까다 롭습니다. 그러나 그런 종류의 토폴로지가 설계 될수록 해석 가능성이 더 높음을 암시하지 않습니까?
Mitch

3
@Mitch Densenet과 같은 일부 최신 아키텍처는 "설계되지 않은 네트워크"와 같이 모든 계층이 다른 모든 계층에 연결되는 한계를 향해 서서히 기어 오르고 있습니다. 그러나 ResNet과 Densenet은 VGG16보다 더 정교한 디자인을 가지고 있지만 해석하기가 어렵다고 말할 수 있습니다. 따라서 더 많은 디자인이 더 해석하기 쉽다고 생각하지 않습니다. 가능한 스파 저 연결은 더 해석하기 쉽다는 것을 의미합니다.
shimao

7

박사 학위 논문의 주제는 신경망, 특히 피드 포워드 신경망의 블랙 박스 속성을 하나 또는 두 개의 숨겨진 레이어로 공개하는 것이 었습니다.

한 계층 피드 포워드 신경망에서 가중치와 바이어스 용어의 의미를 모든 사람에게 설명하는 데 어려움을 겪습니다. 두 가지 다른 관점, 즉 파라 메트릭 관점과 확률 론적 관점이 다루어 질 것입니다.

다음에서는 각 입력 뉴런에 제공된 입력 값이 모두 선형 스케일링 ( )에 의해 간격 (0,1)으로 정규화되었다고 가정합니다. 계수 및 는 과 같이 입력 변수마다 선택됩니다 . 실수 변수와 열거 변수를 구별합니다 (부울 변수를 특수 사례 열거 변수로 사용).xinput=αx+βαβxinput(0,1)

  • 선형 스케일링 후 실수 변수는 과 사이의 10 진수로 제공됩니다 .01
  • 열거 된 변수는 요일 (월요일, 화요일 등)을 입력 노드 로 표시하며 , 는 enurable 결과 수, 즉 1 주일 중 일입니다.vv7

입력 레이어에서 가중치의 (절대 값) 크기를 해석 할 수 있으려면 입력 데이터의 이러한 표현이 필요합니다.

파라 메트릭 의미 :

  • 가중치 의 절대 값 이 입력 뉴런과 숨겨진 뉴런 사이에 클수록 변수가 특정 숨겨진 노드의 '발화'에 더 중요합니다. 가중치가 가까우면 입력 값이 적합하지 않은 것으로 나타납니다. 0
  • 숨겨진 노드로부터 출력 노드까지의 가중치는 절대적인 의미에서 숨겨진 뉴런에 의해 가장 증폭 된 입력 변수의 가중치 증폭이 특정 출력 노드를 촉진 시키거나 감쇠 시킨다는 것을 나타낸다. 체중의 부호는 승격 (양성) 또는 억제 (음성)를 나타냅니다.
  • 신경망의 파라미터에 명시 적으로 표현되지 않은 세 번째 부분은 입력 변수의 다변량 분포입니다. 즉, 값 이 입력 노드 제공되는 경우얼마나 됩니까? 숨겨진 노드 가중치가 실제로 큰 가요?132
  • 편향 항은 숨겨진 (또는 출력) 뉴런의 평균을 이동시키는 변환 상수입니다. 위에서 설명한 shift 처럼 작동합니다 .β

출력 뉴런으로부터의 추론 : 출력 뉴런 에 대한 연결에서 어떤 숨겨진 뉴런이 절대 중량 값이 가장 높은가? 각 숨겨진 노드의 활성화가 가까워 지는 빈도 (시그 모이 드 활성화 기능을 가정). 훈련 세트에서 측정 한 주파수에 대해 이야기하고 있습니다. 정확하게하려면 : 숨겨진 노드 빈도 무엇인지 하고 입력 변수에 큰 가중치, 및 , 이러한 숨겨진 노드 것을 하고 에 가까운1iltsil1? 각 숨겨진 노드는 정의에 따라 입력 값의 가중 평균을 전파합니다. 각 숨겨진 노드는 주로 어떤 입력 변수를 승격 시키거나 억제합니까? 또한 는 숨겨진 노드 에서 두 개의 출력 노드로 는 가중치 간의 가중치의 절대 차이에 대해 설명합니다. 와 .Δj,k=∣wi,jwi,kijk

더 중요한 숨겨진 노드는 출력 노드 (트레이닝 세트를 통한 주파수 대화)에서 어떤 '입력 가중치 대 입력 주파수'가 가장 중요합니까? 그런 다음 피드 포워드 신경망의 매개 변수의 중요성에 대해 자세히 살펴 봅니다.

확률 론적 해석 :

확률 적 관점은 분류 신경망을 베이 즈 분류기 (이론적으로 정의 된 가장 낮은 오류율을 갖는 최적 분류기)로 간주하는 것을 의미한다. 신경망의 결과에 영향을 미치는 입력 변수는 무엇이며 얼마나 자주? 이것을 확률 론적 감수성 분석으로 간주하십시오. 하나의 입력 변수를 바꾸면 얼마나 자주 다른 분류로 이어질 수 있습니까? 입력 뉴런 이 얼마나 자주 분류 결과에 가장 큰 영향미쳐 해당 출력 뉴런이 가장 높은 값을 달성 했는가?xinput

개별 사례-패턴

실수 입력 뉴런 을 변경하면 가장 가능성있는 분류가 변경 될 수 변수가 잠재적 영향을 미칩니다 . 열거 변수의 결과를 변경하는 경우 (월요일 에서 화요일 또는 다른 요일로 변경) ), 그리고 가장 가능성이 높은 결과가 변경되면 열거 된 변수가 분류 결과에 잠재적 영향미칩니다 .xinput[1,0,0,0,0,0,0][0,1,0,0,0,0,0]

이제 그러한 변화의 가능성을 고려할 때 예상되는 영향에 대해 이야기합니다 . 입력 변수가 변경 되어 다른 모든 입력 값이 주어지면 입력 사례가 결과를 변경 하도록하는 확률은 얼마입니까? 예상 영향은 의 예상 값 , 즉 냅니다. 여기서 은 입력 제외한 모든 입력 값의 벡터입니다 . 열거 된 변수는 여러 입력 뉴런으로 표시됩니다. 여기서 가능한 결과는 하나의 변수로 간주됩니다. x i n p u t E ( x i n p u tx i n p u t ) x i n p u t x i n p u txinputxinputE(xinputxinput)xinputxinput

깊은 기울기-NN 매개 변수의 의미

컴퓨터 비전에 적용될 때 신경망은 지난 10 년 동안 놀라운 발전을 보여주었습니다. 1989 년 LeCunn이 도입 한 컨볼 루션 뉴럴 네트워크는 이미지 인식 측면에서 실제로 성능이 우수한 것으로 판명되었습니다. 다른 컴퓨터 기반 인식 방식보다 성능이 우수하다고보고되었습니다.

컨볼 루션 신경망이 객체 인식을 위해 훈련 될 때 흥미로운 비상 속성이 나타납니다. 숨겨진 노드의 첫 번째 계층은 스케일 공간 연산자 T. Lindeberg, 자동 스케일 선택 기능 감지 1998와 유사한 저수준 기능 검출기를 나타냅니다 . 이 스케일 공간 연산자는

  • 윤곽,
  • 모서리
  • T- 접합

다른 기본 이미지 기능도 있습니다.

포유류 뇌의 지각 뉴런이 (생물학적) 이미지 처리의 첫 단계에서 이러한 방식으로 작동하는 것으로 나타났습니다. CNN과 함께 과학계는 인간의 인식을 그토록 경이롭게 만드는 것에 대해 종결하고 있습니다. 이것은이 연구 라인을 더 추구하는 것이 매우 가치가 있습니다.


이것은 흥미 롭습니다. 상관 된 기능의 경우에 많은 해석 성을 제공하는 것처럼 들리지 않습니까?
khol

예상 밸류 E (.)는 조건부 분포의 평균 x_input 주어진 x_-input, 다른 모든 변수로도 알려져 있습니다. 따라서 상관 관계가이 예상 영향 개념에 완전히 통합됩니다. 확률 적 독립성은 '상관 관계'보다 더 넓은 정의를 가지며, 후자는 주로 가우시안 분산 데이터에 대해 정의됩니다.
매치 메이커 EE

좋은. 로지스틱 회귀 분석을 일련의 누적 회귀 모델로 해석하는 일반화입니까?
Mitch

숨겨진 노드의 부분 집합은 출력 뉴런의 논리 'OR'또는 논리 'AND'와 같은 역할을 할 수 있습니다. 또는 하나의 숨겨진 노드 활성화로 인해 출력 뉴런이 1에 가까워 질 때 발생하고 숨겨진 노드 활성화의 합계만으로 출력 노드 활성화가 1에 가까워 질 때 발생합니다. AND '는'팬인 '의 훈련 된 가중치 벡터에 따라 출력 노드에 의존합니다.
매치 메이커 EE
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.