신경망을 비선형 분류 모델로 만드는 것은 무엇입니까?


18

비선형 분류 모델의 수학적 의미를 이해하려고합니다.

방금 신경망이 비선형 분류 모델이라는 기사를 읽었습니다.

그러나 나는 단지 그것을 깨닫는다.

여기에 이미지 설명을 입력하십시오

첫 번째 레이어 :

h1=x1wx1h1+x2wx1h2

h2=x1wx2h1+x2wx2h2

후속 레이어

y=bwby+h1wh1y+h2wh2y

단순화 할 수 있습니다

=b+(x1wx1h1+x2wx1h2)wh1y+(x1wx2h1+x2wx2h2)wh2y

=b+x1(wh1ywx1h1+wx2h1wh2y)+x2(wh1ywx1h1+wx2h2wh2y)

2 계층 신경망은 단순한 선형 회귀입니다.

=b+x1W1+x2W2

임의의 수의 가중치의 선형 조합이 다시 선형이기 때문에 이것은 임의의 수의 층으로 보여 질 수있다.

신경망을 비선형 분류 모델로 만드는 것은 무엇입니까?
활성화 기능이 모델의 비선형성에 어떤 영향을 미칩니 까?
나 한테 설명해 줄래?

답변:


18

신경망의 노드에서 활성화 기능 을 잊어 버렸습니다. 비선형이며 전체 모델을 비선형으로 만듭니다.

수식에서 완전히 정확하지 않은 경우

h1w1x1+w2x2

그러나

h1=sigmoid(w1x1+w2x2)

여기서 sigmoid 함수는 다음과 같습니다.sigmoid(x)=11+ex

여기에 이미지 설명을 입력하십시오

의는 시그 모이 드 함수의 영향을 설명하기 위해 수치 예제를 사용하자 당신이 가정 다음 . 반면에 , 이고 거의 비선형 인 와 거의 같다고 가정 합니다.시그 모이 드 ( 4 ) = 0.99 w 1 x 1 + w 2 x 2 = 4000 시그 모이 드 ( 4000 ) = 1 시그 모이 드 ( 4 )w1x1+w2x2=4sigmoid(4)=0.99w1x1+w2x2=4000sigmoid(4000)=1sigmoid(4)


또한이 자습서 의 슬라이드 14가 정확히 어디에서 잘못했는지 보여줄 수 있다고 생각합니다 . 들어 제발하지 otuput은 -7.65 아니지만, S 상 ( - 7.65 )H1sigmoid(7.65)

여기에 이미지 설명을 입력하십시오


1
활성화 기능이 모델의 비선형성에 어떤 영향을 미칩니 까? 나 한테 설명해 줄래?
Alvaro Joao

3

여러 선형 레이어가 단일 선형 레이어와 동일 할 수 있습니다. 다른 답변에서 말했듯이 비선형 활성화 함수는 비선형 분류를 허용합니다. 분류자가 비선형이라고하면 비선형 결정 경계가 있음을 의미합니다. 결정 경계는 클래스를 분리하는 표면입니다. 분류자는 결정 경계의 한쪽에있는 모든 점에 대해 한 클래스를, 다른쪽에있는 모든 점에 대해 다른 클래스를 예측합니다.

일반적인 상황을 고려해 봅시다 : 비선형 숨겨진 단위의 여러 계층과 S 자형 활성화 기능이있는 출력 단위를 포함하는 네트워크로 이진 분류를 수행합니다. 는 출력을 제공하고, 는 마지막 숨겨진 레이어에 대한 활성화 벡터이며, 는 출력 장치에 대한 가중치 벡터이며 는 출력 장치의 바이어스입니다. 출력은 다음과 같습니다.h w byhwb

y=σ(hw+b)

여기서 는 로지스틱 시그 모이 드 함수입니다. 출력은 클래스가 확률로 해석됩니다 . 예상되는 클래스 는 다음과 같습니다.1 cσ1c

c={0y0.51y>0.5

숨겨진 단위 활성화와 관련된 분류 규칙을 고려해 봅시다. 숨겨진 유닛 활성화가 라인에 투영되어 있음을 알 수 있습니다 . 클래스를 할당하는 규칙은 의 함수이며 선을 따르는 투영과 단조롭게 관련됩니다. 따라서 분류 규칙은 선을 따른 투영이 일부 임계 값보다 작거나 큰지 여부를 결정하는 것과 같습니다 (이 경우 임계 값은 바이어스의 음수로 제공됨). 이는 의사 결정 경계가 선에 직교하는 초평면이며 해당 임계 값에 해당하는 지점에서 선과 교차 함을 의미합니다.yhW+by

앞서 결정의 경계가 비선형이라고 말했지만 초평면은 선형 경계의 정의입니다. 그러나 출력 직전에 숨겨진 단위의 함수로 경계를 고려했습니다. 숨겨진 단위 활성화는 이전 숨겨진 레이어와 비선형 활성화 기능으로 인해 원래 입력의 비선형 기능입니다. 네트워크를 생각하는 한 가지 방법은 데이터를 비선형 적으로 일부 피처 공간에 매핑하는 것입니다. 이 공간의 좌표는 마지막 숨겨진 단위의 활성화로 제공됩니다. 그런 다음 네트워크는이 공간에서 선형 분류 (이 경우 로지스틱 회귀)를 수행합니다. 또한 의사 결정 경계를 원래 입력의 함수로 생각할 수도 있습니다. 이 기능은 입력에서 숨겨진 장치 활성화로의 비선형 매핑의 결과로 비선형이됩니다.

블로그 게시물 은이 프로세스의 멋진 그림과 애니메이션을 보여줍니다.


1

비선형 성은 S 자형 활성화 함수 1 / (1 + e ^ x)에서 나옵니다. 여기서 x는 질문에서 참조한 예측 변수와 가중치의 선형 조합입니다.

그런데이 활성화의 경계는 0과 1입니다. 분모가 너무 커져서 분수가 0에 가까워 지거나 e ^ x가 작아 져 분수가 1/1에 가까워지기 때문입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.