로지스틱 회귀 및 가능성 이해

로지스틱 회귀의 모수 추정 / 훈련은 실제로 어떻게 작동합니까? 지금까지 가지고있는 것을 넣어 보도록하겠습니다.

x의 값에 따른 확률의 형태로 로지스틱 함수의 출력은 y입니다. $P (y = 1 | x) = \frac{1}{1 + e^{- ω^{T} x}} \equiv σ (ω^{T} x)$ $P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx)$ $P (y = 0 | x) = 1 - P (y = 1 | x) = 1 - \frac{1}{1 + e^{- ω^{T} x}}$ $P(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}}$
한 차원에서 소위 홀수는 다음과 같이 정의됩니다. $\frac{p (y = 1 | x)}{1 - p (y = 1 | x)} = \frac{p (y = 1 | x)}{p (y = 0 | x)} = e^{ω_{0} + ω_{1} x}$ ${{p(y=1|x)}\over{1-p(y=1|x)}}={{p(y=1|x)}\over{p(y=0|x)}}=e^{\omega_0+\omega_1x}$
이제 log선형 형태로 W_0 및 W_1을 얻는 함수를 추가합니다 . $L o g i t (y) = l o g (\frac{p (y = 1 | x)}{1 - p (y = 1 | x)}) = ω_{0} + ω_{1} x$ $Logit(y)=log({{p(y=1|x)}\over{1-p(y=1|x)}})=\omega_0+\omega_1x$
이제 문제 부분 으로 우도 사용 (Big X is y) y = 1의 확률을 두 번 고려하는 이유를 사람이 있습니까? 이후 : $L (X | P) = \prod_{i = 1, y_{i} = 1}^{N} P (x_{i}) \prod_{i = 1, y_{i} = 0}^{N} (1 - P (x_{i}))$ $L(X|P)=\prod^N_{i=1,y_i=1}P(x_i)\prod^N_{i=1,y_i=0}(1-P(x_i))$ $P (y = 0 | x) = 1 - P (y = 1 | x)$ $P(y=0|x)=1-P(y=1|x)$

어떻게 ω 값을 얻습니까?

regression logistic likelihood

— 엔진
소스

답변:

일반적으로 양식의 모델을 사용하기로 결정했다고 가정하십시오.

P (y = 1 | X = x) = h (x; Θ)

$P(y=1|X=x) = h(x;\Theta)$

일부 매개 변수 . 그런 다음 간단히 그 가능성을 적습니다. 즉 $\Theta$

L (Θ) = \prod_{i \in {1, . . ., N}, y_{i} = 1} P (y = 1 | x = x; Θ) \cdot \prod_{i \in {1, . . ., N}, y_{i} = 0} P (y = 0 | x = x; Θ)

$L(\Theta) = \prod_{i \in \{1, ..., N\}, y_i = 1} P(y=1|x=x;\Theta) \cdot \prod_{i \in \{1, ..., N\}, y_i = 0} P(y=0|x=x;\Theta)$

이것은 같은

L (Θ) = \prod_{i \in {1, . . ., N}, y_{i} = 1} P (y = 1 | x = x; Θ) \cdot \prod_{i \in {1, . . ., N}, y_{i} = 0} (1 - P (y = 1 | x = x; Θ))

$L(\Theta) = \prod_{i \in \{1, ..., N\}, y_i = 1} P(y=1|x=x;\Theta) \cdot \prod_{i \in \{1, ..., N\}, y_i = 0} (1-P(y=1|x=x;\Theta))$

이제 '가정'(모델)을 결정했습니다.

P (y = 1 | X = x) = σ (Θ_{0} + Θ_{1} x)

$P(y=1|X=x) = \sigma(\Theta_0 + \Theta_1 x)$

여기서

σ (z) = 1 / (1 + e^{- z})

$\sigma(z) = 1/(1+e^{-z})$

따라서 가능성에 대한 공식을 계산하고 를 찾으려면 일종의 최적화 알고리즘을 수행하십시오 예 : newtons 메소드 또는 기타 그래디언트 기반 메소드). $\text{argmax}_\Theta L(\Theta)$

때때로 사람들은 로지스틱 회귀 분석을 할 때 가능성을 최대화하지 않고 오히려 손실 기능을 최소화한다고 말합니다.

l (Θ) = - \sum_{i = 1}^{N} y_{i} \log (P (Y_{i} = 1 | X = x; Θ)) + (1 - y_{i}) \log (P (Y_{i} = 0 | X = x; Θ))

$l(\Theta) = -\sum_{i=1}^N{y_i\log(P(Y_i=1|X=x;\Theta)) + (1-y_i)\log(P(Y_i=0|X=x;\Theta))}$

그러나 입니다. $-\log(L(\Theta)) = l(\Theta)$

이것은 머신 러닝의 일반적인 패턴입니다 : 실제적인 측면 (휴리스틱 모델이 얼마나 잘못되었는지 측정하는 손실 함수 최소화)은 실제로 '이론적 측면'( 심볼로 명시 적으로 모델링 하여 통계량을 최대화 함)과 같습니다. 가능성) 및 실제로 확률 론적 모델 (예 : SVM)처럼 보이지 않는 많은 모델은 확률 론적 맥락에서 다시 이해 될 수 있으며 실제로 가능성을 최대화합니다. $P$

— 파비안 베르너
소스

@Werner 답변 주셔서 감사합니다. 그러나 나는 여전히 약간의 설명이 필요합니다. 첫 번째 로 의 정의에서 2 무엇을 유지 하는지 설명 할 수 의 경우에 이해되는 한 . 그리고 당신의 도움을 많이 과 의 가치를 얻는 방법 !

\prod

$\prod$

L (θ)

$L(\theta)$

y_{i} = 1

$y_i =1$

ω_{1}

$\omega_1$

ω_{0}

$\omega_0$

— 엔진

@Engine : 큰 'pi'는 큰 시그마와 같은 제품입니다. 는 합입니다 ... 이해하거나 더 명확히해야합니까? 두 번째 질문 : 함수 를 최소화하고 에서 시작 하지만 를 알지 못하거나 표현할 수 없으며 / 시각화 할 수 없다고 가정합시다. 복잡한. 이제 의 미분 은 입니다. 흥미롭게도 최소 에서 오른쪽이면 오른쪽을 가리키고 왼쪽이면 왼쪽을 가리 킵니다. 수학적으로 미분은 '가장 강한 상승'의 방향을 가리킨다

Σ

$\Sigma$

f (x) = x^{2}

$f(x) = x^2$

x = 3

$x=3$

f

$f$

f

$f$

f^{'} = 2 x

$f' = 2x$

x = 0

$x=0$

— Fabian Werner

@Engine : 더 많은 차원에서 미분을 기울기로 대체합니다. 즉, 임의의 점 에서 시작 하여 에서 기울기 를 계산하고 최대화하려는 경우 다음 점 은 . 그런 다음 를 계산 하고 다음 는 등입니다. 이것을 그라디언트 상승 / 하강이라고하며 함수를 최대화하는 가장 일반적인 기술입니다. 이제와 그렇게 또는 표기법에 의 순서로 찾아 그 maxeimizes

x_{0}

$x_0$

\partial f

$\partial f$

x

$x$

x_{1}

$x_1$

x_{1} = x_{0} + \partial f (x_{0})

$x_1 = x_0 + \partial f(x_0)$

\partial f (x_{1})

$\partial f(x_1)$

x

$x$

x_{2} = x_{1} + \partial f (x_{1})

$x_2 = x_1 + \partial f(x_1)$

L (Θ)

$L(\Theta)$

L (ω)

$L(\omega)$

ω

$\omega$

L

$L$

— Fabian Werner

@ 엔진 : 당신은 전혀 관심이 없습니다 ! '데이터를 가장 잘 설명하는' ' '에 관심이 있습니다. thet aou에서 모델이 '자신을 위해 말하기'를하고 의 경우로 돌아가십시오. 그러나 우선 모델을 설정해야합니다! 여기서 '최고의 설명'은 '가장 높은 가능성을 갖는 것'을 의미합니다. 왜냐하면 그것이 사람들이 생각 해낸 것이므로 매우 자연 스럽습니다. 그러나 다른 지표 (다른 손실 함수 등)가있을 수 있습니다. 사용하다! 이 개 제품은 우리가 모델이 설명하기를 원하기 때문에이있다 뿐만 아니라 같은 '좋은'!

y = 1

$y=1$

ω

$\omega$

ω

$\omega$

y = 1

$y=1$

y = 1

$y=1$

y = 0

$y=0$

— Fabian Werner

우도 함수 (4)는 두 부분으로 구성됩니다. 성공한 샘플에있는 사람 만 성공할 확률의 곱과 실패한 샘플에있는 사람 만 실패 할 확률의 곱입니다. 각 개인이 성공 또는 실패를 경험하지만 둘 다를 경험하지 않는 경우 각 확률은 각 개인에게 한 번만 나타납니다. 이것이 제품 표시의 맨 아래에서 및 의미합니다. $, y_i=1$ $,y_i=0$

계수는 (1)을 (4)로 대체하여 우도 함수에 포함됩니다. 그렇게하면 우도 함수는 의 함수가됩니다 . 최대 가능성의 포인트는 가능성 을 최대화하는 를 찾는 것입니다. $\omega$ $\omega$

— 마틴 부 이스
소스

답변 주셔서 대단히 감사합니다, 죄송하지만 여전히 이해가되지 않습니다. 이 아님 은 제품의 모든 y에 대해 y = 0 [발생하지 않음]을 의미합니다. y_i = 1의 경우도 마찬가지입니다. 그리고 여전히 2 차 미분을 계산하여 어떻게 값을 찾을 수 있습니까? 또는 그라디언트? 도와 주셔서 정말로 고맙습니다 !

y_{i} = 0

$y_i = 0$

ω

$\omega$

— 엔진

\prod_{i = 1, y = 1}^{N}

$\prod_{i=1, y=1}^N$ 은 " 부터 까지의 사람을위한 제품으로 , 경우에만 "읽어야 합니다. 따라서 첫 번째 부분은 데이터를 통해 이벤트를 경험 한 사람에게만 적용됩니다. . 마찬가지로, 두 번째 부분은 이벤트를 경험하지 않은 사람을 의미합니다.

i = 1

$i=1$

N

$N$

y = 1

$y=1$

— 마틴 Buis

우도 함수를 최대화하기위한 많은 가능한 알고리즘이 있습니다. 가장 일반적인 방법 인 Newton-Raphson 방법 은 실제로 1 차 및 2 차 미분 계산을 포함합니다.

— Maarten Buis