신경망에서 바이어스 노드의 중요성


19

바이어스 노드가 현대 신경 네트워크의 효과에 얼마나 중요한지 알고 싶습니다. 입력 변수가 적은 얕은 네트워크에서 중요 할 수 있음을 쉽게 이해할 수 있습니다. 그러나 딥 러닝과 같은 현대 신경망에는 종종 특정 뉴런이 트리거되는지 여부를 결정하기 위해 많은 입력 변수가 있습니다. 예를 들어 LeNet5 또는 ImageNet에서 단순히 제거하면 실제 영향이 있습니까?


@gung- "bias node"라는 문구를 사용하도록 제목을 편집 한 것을 보았습니다. 왜 당신이 그 제목을 선호하는지 궁금합니다. 나는 그 사용법을 들어 본 적이 없다. 또한 바이어스가 네트워크에서 별도의 노드가 아닌 경우 "노드"라는 단어를 사용하는 것이 혼란스러워 보입니다.
pir

2
마음에 들지 않으면 사과와 함께 편집을 롤백 할 수 있습니다. 나는 몇 년 동안 ANN과 함께 연주하지 않았고 대신 "바이어스 뉴런 (bias neuron)"이라고 불렀지 만 항상 그 이름이 상당히 표준 적이라고 생각했습니다. FWIW, "bias"는 통계 / ML에서 약간 모호합니다. 가장 일반적으로 샘플링 분포가 모수의 실제 값 또는 실제 함수 / 평균 등과 다른 예측 함수 / 예측 값을 중심으로하지 않는 추정기를 나타내는 반면, 바이어스 노드는 ANN.
gung-모니 티 복원

2
그것은 적어도 어떤 의미에서든 네트워크에있는 실제 노드입니다. 예를 들어이 이미지 의 검은 색 노드를 참조하십시오 .
gung-복직 모니카

좋아, 그건 말이된다- "바이어스"가 아주 모호하다는 것은 사실이다. 설명 주셔서 감사합니다.
pir

1
뉴런의 경우 편향 단위가 급격한 발사처럼 보이며 이는 자연에서 발생합니다.
user3927612

답변:


15

바이어스를 제거하면 성능에 확실히 영향을 미치며 여기에 이유가 있습니다.

각 뉴런은 단순한 로지스틱 회귀와 같으며 와이=σ(엑스+) 입니다. 입력 값에 가중치가 곱해지고 바이어스는 S 자형 함수 (tanh 등)의 초기 스 쿼싱 수준에 영향을 미치므로 원하는 비선형 성이 발생합니다.

예를 들어 모든 입력 픽셀이 검은 색 x 0 때 뉴런이 을 발생 시키길 원한다고 가정합니다 . 어떤 가중치 W에 상관없이 바이어스가 없다면 , 방정식 y = σ ( W x ) 가 주어지면 뉴런은 항상 y 0.5를 발사 합니다.와이1엑스0와이=σ(엑스)와이0.5

따라서 바이어스 용어를 제거하면 신경망의 성능이 크게 저하됩니다.


2
고마워요. 대부분의 최신 네트가 ReLU를 활성화 기능으로 사용하지만 (예 : papers.nips.cc/paper/4824-imagenet 참조 ), 모든 입력 픽셀이 검은 색일 때 네트를 발사해야하는 경우에도 여전히 관련이있을 수 있습니다. ReLU는 f (x) = max (0, x)로 정의됩니다.
pir

바로 그거죠! 그것은 같은 경우입니다 ...
Yannis Assael

4
와이1엑스0엑스0와이0.5

2
나는 이론에 동의하지만, 현대의 대형 그물을 사용하면 0으로 입력 할 가능성이 무시할 만하다는 것을 지적 할 가치가 있습니다. 이유는 일부이다 - 대부분 단일 신경 세포의 출력을 걱정하지 않을 것이다 깊은 그물 - 이것은 또한 그물 1을 발사 할 것이라는 가정에 의존 드롭 아웃은 그물을 정례화에 대한 인기입니다.
Max Gordon

2
@MaxGordon이 맞습니다. 이 답변은이 질문에 적용되지 않습니다. 큰 네트워크에서 편견을 제거하면 차이가 거의 없다는 것을 알 수 있습니다.
Neil G

10

귀하의 질문의 특정 상황에서 다른 답변에 동의하지 않습니다. 예, 소규모 네트워크에서는 바이어스 노드가 중요합니다. 그러나 큰 모델에서 바이어스 입력을 제거하면 차이가 거의 없습니다. 각 노드는 모든 입력의 평균 활성화에서 바이어스 노드를 만들 수 있기 때문에 많은 수의 법칙에 의해 대략 정상입니다. 첫 번째 계층에서이를 수행하는 능력은 입력 분포에 따라 다릅니다. 예를 들어 MNIST의 경우 입력의 평균 활성화는 거의 일정합니다.

소규모 네트워크에서는 물론 바이어스 입력이 필요하지만 대규모 네트워크에서는 제거해도 거의 차이가 없습니다. (그러나 왜 제거 하시겠습니까?)


3

평판이 충분하면 @NeilG의 답변에 대해 언급하고 있지만 아아 ...

닐, 이것에 동의하지 않습니다. 당신은 말한다 :

... 모든 입력의 평균 활성화, 많은 수의 법칙에 의해 대략 정상입니다.

나는 그것에 반대하고, 많은 수의 법칙은 모든 관측이 서로 독립적이어야한다고 주장한다. 신경망과 같은 경우에는 그렇지 않습니다. 각 활성화가 정상적으로 분포되어 있어도 한 입력 값이 예외적으로 높은 것으로 관찰되면 다른 모든 입력의 확률이 변경됩니다. 따라서이 경우 "관찰"은 입력에 독립적이지 않으며 많은 수의 법칙이 적용되지 않습니다.

당신의 대답을 이해하지 못하는 한.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.