로지스틱 회귀가 선형 분류 기인 이유는 무엇입니까?


48

로지스틱 함수를 사용하여 입력의 선형 조합을 비선형 출력으로 변환하기 때문에 어떻게 로지스틱 회귀를 선형 분류기로 간주 할 수 있습니까?

선형 회귀는 숨겨진 계층이없는 신경망과 같으므로 신경망이 왜 비선형 분류기로 간주되고 로지스틱 회귀가 선형입니까?


7
"입력의 비선형 출력으로의 선형 조합"변환 은 선형 분류기 정의 의 기본 부분입니다 . 이것은이 질문을 두 번째 부분으로 줄이며, 이는 신경망이 일반적으로 선형 분류 자로 표현 될 수 없음을 보여줍니다.
whuber

1
@whuber : 로지스틱 회귀 모델 이 비선형 의사 결정 경계를 생성하기 위해 다항식 예측 변수 (예 : )를 취할 수 있다는 사실을 어떻게 설명 합니까? 여전히 선형 분류기입니까? w1x12+w2x23
stackoverflowuser2010 년

4
@Stack "선형 분류기"의 개념은 선형 모델 의 개념에서 비롯된 것으로 보입니다 . 모델의 "선형성"은 stats.stackexchange.com/a/148713에 설명 된대로 여러 형태를 취할 수 있습니다 . 우리가 동의하면 선형 분류의 위키 백과의 특성을 , 다음 다항식 예로 간주 될 비선형 주어진 "기능"의 측면에서 X 2 있지만 될 선형 기능면에서 X 2 (1)X 3 2 . 이 구별은 선형성의 속성을 활용하는 유용한 방법을 제공합니다.x1x2x12x23
whuber

1
나는 여전히 물류 분류기의 결정 경계가 선형이라는 질문에 대해 약간 혼란 스럽습니까? 나는 코 세라에 과정을 학습 앤드류 응 기계를 따랐습니다 그가 언급 한 다음 ! [여기 이미지 설명 입력 (] i.stack.imgur.com/gHxfr.png을 ) 그래서 실제로는 아무도 그것을 대답하지가 나에게 보인다 결정 경계의 선형성 또는 비선형성에 따라 달라지며, Htheta (X)로 정의 된 가설 함수에 따라 달라집니다. 여기서 X는 입력이고 Theta는 문제의 변수입니다. 당신에게 이치에 맞습니까?
brokensword

답변:


41

p^=11+eμ^, where μ^=θ^x.
μ^xx

x

{x:p^=0.5}θ^x=0


2
xθ

1
또한 당신의 설명으로. 신경망의 예측은 마지막 숨겨진 계층 활성화의 선형 함수라고 말할 수 있습니까?
Jack Twain

2
θ^xθ^xxx

3
xx

3
@Pegah 나는 이것이 오래되었다는 것을 알고 있지만, 로지스틱 회귀에는 선형 결정 경계가 있습니다. ouptut 자체는 물론 선형 적이 지 않습니다. 점의 어느 쪽이 떨어지는 지에 따라 총 출력은 각각 0 또는 1에 접근하지만 도달하지는 않습니다. Stefan Wagners의 대답에 추가하기 위해 : 마지막 문장이 완전히 정확하지는 않습니다. 신경망은 비선형 활성화 또는 출력 함수를 포함 할 때 비선형입니다. 그러나 비선형이 추가되지 않은 경우에도 선형 일 수 있습니다.
Chris

20

Stefan Wagner가 지적했듯이 로지스틱 분류기의 결정 경계는 선형입니다. (분류기는 입력을 선형으로 분리 할 수 ​​있어야합니다.) 명확하지 않은 경우이를 위해 수학을 확장하고 싶었습니다.

11+eθx=0.5

약간의 대수는 이것이 와 같다는 것을 보여줍니다

1=eθx

그리고 양쪽의 자연스런 로그를 취하면

0=θx=i=0nθixi

따라서 결정 경계는 선형입니다.

신경망에 대한 결정 경계가 선형이 아닌 이유는 신경망에 두 개의 시그 모이 드 함수 계층 이 있기 때문 입니다. 각 출력 노드에 하나씩 추가하고 각 출력 노드의 결과를 결합하고 임계 값으로 만드는 추가 시그 모이 드 함수입니다.


2
실제로 활성화 된 레이어가 하나 뿐인 비선형 결정 경계를 얻을 수 있습니다. 2 계층 피드 포워드 네트워크가있는 XOR의 표준 예를 참조하십시오.
James Hirschorn

5

C0C1

P(C0|x)=P(x|C0)P(C0)P(x)
P(C0|x)=P(x|C0)P(C0)P(x|C0)P(C0)+P(x|C1)P(C1)=11+exp(logP(x|C0)P(x|C1)logP(C0)P(C1))
1+eωx

P(x|Ci)=exp(θixb(θi)a(ϕ)+c(x,ϕ))
logP(x|C0)P(x|C1)=[(θ0θ1)xb(θ0)+b(θ1)]/a(ϕ)

두 분포 모두 동일한 패밀리에 속하고 분산 매개 변수가 동일하다고 가정합니다. 그러나이 가정 하에서 로지스틱 회귀는 전체 지수 분포 분포에 대한 확률을 모형화 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.