머신 러닝 모델을 블랙 박스라고하는 이유는 무엇입니까?


40

필자는이 블로그 게시물을 읽었습니다. The Financial World는 AI의 블랙 박스를 열고 싶어 합니다. 저자는 ML 모델을 "블랙 박스"라고 반복해서 말합니다.

ML 모델을 언급 할 때 유사한 용어가 여러 곳에서 사용되었습니다. 왜 그래야만하지?

ML 엔지니어가 신경망 내부에서 무슨 일이 일어나고 있는지 알지 못하는 것은 아닙니다. ML 엔지니어는 사용할 활성화 기능, 해당 레이어 유형, 오류가 다시 전파되는 방식 등을 알고 모든 레이어를 선택합니다.


4
약간 미묘한 점 : ML 엔지니어는 모든 구조, 즉 레이어 수, 활성화 기능 등을 알고 있습니다. 알 수없는 것은 가중치 자체입니다. 그러나 ML 모델은 가중치에 의해 결정되므로 특정 가중치 세트를 가진 모델의 평가는 인간, 심지어 구조를 완전히 이해하는 전문가조차도 (현재) 해석, 설명 또는 이해할 수 없습니다.
isaacg


3
@isaacg-ML 엔지니어는 무게가 무엇인지 쉽게 찾을 수 있습니다. 블랙 박스는 가중치가 무엇인지, 그리고 그 가중치가 실제 세계에서 어떤 관계인지를 모르는 것과 더 관련이 있습니다. 따라서 훨씬 더 미묘합니다.
josh

답변:


51

블랙 박스 것은 (관객 인간이만큼) 관객의 전문 지식의 수준과는 아무 상관이없는,하지만와 explainability 기계 학습 알고리즘에 의해 모델링 기능.

로지스틱 회귀 분석에서는 입력과 출력 사이에 매우 간단한 관계가 있습니다. 특정 샘플이 잘못 분류 된 이유를 이해하는 경우가 있습니다 (예 : 입력 벡터의 특정 구성 요소 값이 너무 낮아서).

의사 결정 트리에도 동일하게 적용됩니다 . 트리에서 적용한 논리를 따르고 특정 요소가 한 클래스 또는 다른 클래스에 지정된 이유를 이해할 수 있습니다.

그러나 심층 신경망은 블랙 박스 알고리즘의 패러다임 예입니다. 세계에서 가장 전문적인 사람조차도 신경망을 훈련시켜 실제로 모델링 된 기능을 파악할 수있는 사람은 없습니다. 이에 대한 통찰력은 적대적인 예 에 의해 제공 될 수 있습니다 . 훈련 샘플에서 약간 (그리고 사람 이 알아볼 수 없는) 변화로 인해 네트워크가 완전히 다른 레이블에 속한다고 생각할 수 있습니다. 적대적인 예를 만드는 기술과 견고성을 향상시키는 기술이 있습니다. 그러나 네트워크에 의해 모델링되는 기능의 모든 관련 속성을 실제로 아는 사람이 없기 때문에 항상 새로운 기능을 생성하는 방법을 찾을 수 있습니다.

인간은 또한 블랙 박스이며 우리도 적대적인 예에 ​​합리적 입니다.


2
의사 결정 트리의 논리는 이론적 으로 따를 수 있지만 종종 실용적이지 않습니다. NN과 근본적인 차이점이 어디인지는 알 수 없습니다.
Miguel

BTW 저는 사용 도구의 기본 사항을 배우는 데 전문 지식이 부족하거나 관심이 없다는 점에서 사용 된 블랙 박스 를 사용하고 보았습니다 .
Miguel

4
"하지만 아무도 네트워크로 모델링되는 기능을 실제로 아는 사람이 없다면" 그건 틀렸어요 정확히 어떤 함수가 모델링되었는지 알지 못하면 훈련하거나 예측에 사용할 수 없습니다. 우리는 정확히 어떤 기능이 모델링되는지 알고 있습니다. 우리는 그것의 (모든) 관련 속성을 알지 못합니다. 그리고 기능이 복잡합니다. 그러나 그것은 매우 다른 진술입니다.
Martin Thoma

1
@MartinThoma가 동의하고 업데이트했습니다.
ncasas

1
(+1) 그러나 이쑤시개. 로지스틱 회귀는 클래스 할당을 수행하지 않으며 조건부 확률 만 추정하려고합니다. 적절하게 사용 된 분류 트리가있는 Ditto. 수업 할당은 ML 알고리즘 자체가 아니라 의사 결정을해야하는 사람이 부과합니다.
Matthew Drury

18

대부분의 포인트 (+1)에서 ncasas 답변 에 동의하지만 일부는달라고 간청합니다.

  • 의사 결정 트리도 블랙 박스 모델로 사용할 수 있습니다. 사실, 대부분의 경우 블랙 박스 모델로 사용됩니다. 10,000 개의 지형지 물과 50의 깊이의 나무가 있다면 인간이 그것을 이해하기를 합리적으로 기대할 수 없습니다.
  • 신경망을 이해할 수 있습니다. 많은 분석 기법이 있습니다 ( 모델 개선을 목적으로하는 일부 마스터 논문의 2.5 장 참조 ). 특히 폐색 분석 (그림 2.10), 필터 시각화 (그림 2.11). 또한 왜 당신을 믿어야합니까? 종이 ( 내 노트 ).

화려한 오 클루 전 분석 ( "왜 당신을 믿어야합니까?")을 통해 블랙 박스 모델의 예측을 설명합니다. 여기에 이미지 설명을 입력하십시오

나는 모델 해석의 신화 를 지적하고 싶다 . 해석에 대한 몇 가지 아이디어를 간결하게 정리합니다.

당신의 질문

머신 러닝 모델을 블랙 박스라고하는 이유는 무엇입니까?

사람들이 그것을 사용하는 방법 : 그들은 사람들이 주어진 입력에 대해 어떤 일이 발생하는지 직접 말할 수있는 방식으로 문제를 모델링하지 않기 때문입니다.

개인적인 생각

"블랙 박스 모델"이라는 개념은 그다지 의미가 없다고 생각합니다. 예를 들어 일기 예보를 생각해보십시오. 데이터 만 주면 어떤 날씨가 예측 될지 어떤 사람도 말할 수 없습니다. 그러나 대부분의 사람들은 실제 날씨 모델이 블랙 박스 모델이라고 말하지 않을 것입니다. 차이점은 어디에 있습니까? 하나의 모델이 데이터를 사용하여 생성되고 다른 모델이 물리에 대한 통찰력을 사용하여 생성되었다는 사실입니까?

사람들이 블랙 박스 모델에 대해 이야기 할 때 보통 나쁜 것으로 생각합니다. 그러나 인간도 블랙 박스 모델입니다. 여기서 내가 볼 수있는 중요한 차이점은 인간이 만드는 오류의 종류가 인간에 대해보다 쉽게 ​​예측할 수 있다는 것입니다. 그러므로 그것은 훈련 문제 (NN 측의 험악한 예)와 교육 문제 (인간에게 NN의 작동 방식을 가르치는 것)입니다.

'블랙 박스 모델'이라는 용어를 사용 하는 방법 : 나에게 더 이해하기 쉬운 접근 방식은 user144410 (+1)의 글 과 비슷하게 문제를 "블랙 박스 문제"라고 부르는 것 입니다. 따라서 문제를 블랙 박스로만 취급하는 모든 모델 (따라서 입력하고 출력 할 수있는 것)은 블랙 박스 모델입니다. 문제에 대한 통찰력이있는 모델 (가정뿐만 아니라!)은 블랙 박스 모델이 아닙니다. 통찰력 부분은 까다 롭습니다. 모든 모델은 모델링 할 수있는 가능한 기능을 제한합니다 (예, 범용 근사 문제에 대해 알고 있습니다. 고정 크기 NN을 사용하는 한 적용되지 않습니다). 데이터를 보지 않고 문제를 겪지 않고 입력과 출력의 관계에 대해 알고 있다면 무언가가 문제에 대한 통찰력이라고 말할 수 있습니다.

이것의 결과는 다음과 같습니다.

  • 신경망은 비 블랙 박스 일 수 있습니다 (화이트 박스?)
  • 로지스틱 회귀는 블랙 박스 모델 일 수 있습니다.
  • 문제에 대한 자세한 내용과 모델에 대한 정보가 아닌 문제에 대한 통찰력입니다.

1
감사합니다. 당신의 대답은 항상 읽는 즐거움입니다 :)
Dawny33

1
당신은 환영합니다 :-) 그리고 좋은 단어 주셔서 감사합니다 :-) 소금 한 알을 내 질문에 내 대답을 가져 가십시오. 나도 확실하지 않습니다. 사람들이 단어를 정의하지 않고 단어를 사용하기 때문에 명확한 대답이 없다고 생각합니다. 따라서 한편으로는 사람들 사이의 사용법이 다를 수 있으며 다른 한편으로는 주어진 한 사람도 항상 같은 방식으로 사용하지 않을 수 있습니다.
Martin Thoma

7

해석 가능성과 설명 가능성을 모델링합니다. 더 간단한 모델의 출력이 주어지면 각 입력이 모델 출력에 기여하는 방식을 정확하게 식별 할 수 있지만 모델이 복잡 해짐에 따라 더 어려워집니다. 예를 들어 회귀 분석을 통해 계수를 가리키고 의사 결정 트리를 사용하여 분할을 식별 할 수 있습니다. 이 정보를 통해 모델 동작을 설명하는 규칙을 도출 할 수 있습니다.

그러나 모델 매개 변수의 수가 증가함에 따라 입력 조합이 최종 모델 출력으로 이끄는 모델을 설명하거나 모델 동작에서 규칙을 도출하는 것이 점점 어려워지고 있습니다. COO가 와서 '고주파 거래 고가 왜 경제를 무너 뜨렸는가?'라고 물으면 금융 업계에 말을하자. 모델 구성 방식을 설명하는 것은 가능하지만 입력으로 수신 한 모델이 출력으로 이어진 요인의 조합을 설명하는 것은 불가능하므로 사람들이 블랙 박스에 대해 이야기하는 이유입니다.


5

블랙 박스 모델은 물리 / 과학 법칙에 의존하지 않고 방정식이 가능한 한 일반적이고 유연하도록 선택된 수학적 모델을 말합니다.

회색 상자 모델은 방정식의 일부 (수학적 함수)가 물리적으로 알려진 법칙에서 나오지만 나머지 부분은 설명 할 수없는 부분을 보완하는 일반적인 함수로 간주되는 수학적 모델입니다.

화이트 박스 모델은 기계식 모션 법칙 (항공기 모델 등)과 같이 물리적 법칙과 시스템에 대한 이해를 바탕으로 완전히 구축 된 수학적 모델입니다.

참조 : https://en.wikipedia.org/wiki/Mathematical_model#A_priori_information


재미있는 정의! 로지스틱 회귀, SVM, NN, 데시 네이션 트리는 모두 블랙 박스 모델입니다. 상황에 따라 베이지안 모델은 세 가지 범주 모두에 속할 수 있습니다. 날씨 모델은 흰색 상자 또는 회색 상자 모델입니다.
Martin Thoma

이 답변에 동의하지 않습니다. 물리 이론에 기초한 경험적 모델과 모델의 차이를 그리고 있습니다. 그러나 포장 방법에 따라 흰색 또는 검은 색 상자가 될 수 있습니다.
Brian Borchers

블랙 박스라는 용어는 기본 '참'시스템을 나타내며 모델 구조 선택 문제와 관련이 있습니다.
user144410

"현대 용어"블랙 박스 "는 1945 년경 영어로 입력 된 것으로 보인다. 전자 회로 이론에서 전달 함수로부터의 네트워크 합성 프로세스는 전자 회로가 적용된 신호에 대한 응답을 특징으로하는"블랙 박스 "로 간주되게했다. : 자신의 포트에, 1941 년에 가장 발전된 형태로 자신의 아이디어를 발표 빌헬름 카우 어 ... "소스를 추적 할 수 있습니다 en.wikipedia.org/wiki/Black_box#History
user144410

4

아시다시피 블랙 박스는 입력 및 출력의 서명을 알고 있지만 입력에서 출력을 결정하는 방법을 알 수없는 기능을 나타냅니다.

이 경우 용어 사용이 잘못되었습니다. ML 모델을 알고 이해하려는 작가 / 저자의 의지 또는 능력을 넘어서도 타인의 의지 나 능력을 넘어서는 것은 아닙니다. 각 ML 모델을 생성하는 엔지니어는 작동 방식을 정확히 알고 의사 결정 트리를 자유롭게 끌어 올릴 수 있습니다. 누군가가 너무 게 으르거나 시간이 오래 걸리더라도 정보를 쉽게 이용할 수 없다는 의미는 아닙니다.

ML 모델은 블랙 박스가 아니라 실제로 큰 박스입니다.


3

ML 엔지니어는 신경망 내부에서 무슨 일이 일어나는지 모른다

모순해서 죄송 합니다만 사실입니다. 그들은 신경망이 어떻게 학습하는지 알고 있지만, 주어진 신경망이 무엇을 배웠는지 알지 못합니다. 신경망에 의해 배운 논리는 매우 까다 롭습니다.

기계 학습을 사용하는 요점은 일반적으로 프로그래머 나 도메인 전문가가 생각하지 않는 규칙을 배우는 것입니다. 이것은 본질적으로 파악하기 어렵다.

그것은 하나의 문자 변수 이름, 주석 없음, 명백한 구조 없음, 모호한 수학 사용, 그리고 현재 죽은 사람에 의해 작성된 기존의 컴퓨터 프로그램과 유사합니다. 디버거에서 단계별로 진행할 수 있지만 작동 방식은 아직 명확하지 않습니다.

드물게 누군가 신경망이하는 일을 알아 내기 위해 어려움을 겪습니다. 예를 들어, 최소 충돌 알고리즘N- 퀸 문제 에 대해 훈련 된 신경망을 분석함으로써 발견되었습니다 . 그러나 많은 작업입니다.


일부 선형 방법, 예를 들어 PCA에서도 마찬가지 일 수 있습니다. DL의 공식 만 더 복잡합니다.
Miguel

3

이 질문에 인용 된 블로그 게시물에서, 금융에서 머신 러닝 모델을 개발하는 전문가가 모델이 어떻게 의사 결정을 내리는 지에 대해 고객 (머신 러닝에 대한 교육이없는 금융가)에게 설명 할 수 없다는 사실에 대한 논의 .

이것은 비밀 정보 (예를 들어, 계수는 변조 방지 FPGA로 인코딩 됨)로 인해 블랙 박스 모델과 (계수를 알고 있다는 의미에서) 개방형이지만 계수를 이해할 없는 모델로 구분 됩니다. 특정 청중 .

후자의 종류의 "블랙 박스"는 고객이 구축 한 모델에 "얼굴 유효성"이 있는지 확인하기 때문에 문제가됩니다. 로지스틱 회귀와 같은 다른 유형의 모형을 사용하면 계수를보고 계수가 예상되는 플러스 또는 마이너스 부호를 갖는지 쉽게 확인할 수 있습니다. 심지어 수학적으로 문맹 인 MBA도이를 이해할 수 있습니다.


2

머신 러닝은 블랙 박스로 간주 될 수 있으며, 신경망을 사용하는 XOR 문제에 대한 솔루션을 모델링 할 수 있지만 입력 수가 증가함에 따라 복잡성과 차원도 증가합니다. 이해하고 설명하기가 너무 복잡한 경우 결과를 계산할 수 있는지 여부와 관계없이 블랙 박스입니다.

3 차원까지만 인식 할 수 있지만 3D 모델을 참조 지점으로 사용하여이를 더 높은 차원까지 추정 할 수 있기 때문에 충분합니다. 부분적으로 학습 된 데이터 집합의 일부뿐만 아니라 로컬 최소값을 상상할 수 있습니다.

나는 잠시 동안 아이디어를 가지고 놀았으므로 직장에서 신경망의 애니메이션을 제작하고 신경망에 대한 이해를 향상시켰다. 나는 1과 2 개의 숨겨진 레이어 (주로 3 번째)와 애니메이션을 배우는 방법으로 애니메이션을 제작했습니다.

애니메이션은 느리고 상위 레이어를 보여주는 오른쪽 상단 애니메이션은 가치가 있습니다. 원한다면 YouTube의 애니메이션 속도를 높일 수 있습니다. 오렌지 3:20 오렌지의 파란색과 빨간색 메쉬로 오른쪽 상단 애니메이션에서 중요한 변화를 볼 수 있습니다. 6 분에 빨간색 메쉬, 8:20에 파란색, 주황색 및 빨간색 메쉬. 무게 변화의 방향은 분명히 왼쪽 아래 애니메이션에 있습니다.

https://www.youtube.com/watch?v=UhQJbFDtcoc


1

이런 방식으로 사용 된 블랙 박스 개념 은 소프트웨어 및 하드웨어 품질 보증의 블랙 박스 테스트 에서 비롯된 것이라고 생각합니다 . 테스트하려는 대상의 내부 작업을 보거나 볼 수없는 경우가 있습니다. 그것이 될 수있는 이유가 될 수 있습니다

  1. 비현실적이거나 불가능하다 (봉인 된 환경에 있고 우리는 단순히 그것을 볼 수 없다)

  2. 내부를 볼 수 있다면 크 래피 테스트를 작성할 가능성이 더 높기 때문입니다. "의도적으로 작성되는 필기 테스트"의 위험이 있습니다 (의도의 유무에 관계없이).

테스트 대상에 맞게 테스트를 작성하면 실제로 무언가를 찾을 가능성이 줄어 듭니다.

그것은 것이 완벽한 가능한 숙련 된 기술자는 신호 특성이 특정 트레이닝 시퀀스에서 선정되는 신경망 체크의 내부 동작에 대해 들여다.


-1

블랙 박스 방법은 "시작되지 않은"방법으로 설명하기 어렵다. 재무 또는 기타 분야의 모든 사람은 회귀 또는 의사 결정 트리의 기본 사항을 파악할 수 있습니다. 지원 벡터 머신 하이퍼 플레인 및 신경망 시그 모이 드 기능에 대해 이야기하기 시작하면 대부분의 청중을 잃게됩니다

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.