로지스틱 함수의 헤 시안

가 다음과 같은 로지스틱 회귀 분석에서 목적 함수 의 Hessian을 도출하는 데 어려움이 있습니다 . : $l(\theta)$ $l(\theta)$

l (θ) = \sum_{i = 1}^{m} [y_{i} \log (h_{θ} (x_{i})) + (1 - y_{i}) \log (1 - h_{θ} (x_{i}))]

$l(\theta)=\sum_{i=1}^{m} \left[y_{i} \log(h_\theta(x_{i})) + (1- y_{i}) \log (1 - h_\theta(x_{i}))\right]$

$h_\theta(x)$ 는 로지스틱 함수입니다. 헤 시안은 입니다. I가 계산하여 도출하려고 하지만 다음은 행렬 표기법으로 얻는 방법을 그다지 명백하지 않았다 . $X^T D X$ $\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}$ $\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}$

아무도 를 도출하는 깨끗하고 쉬운 방법을 알고 있습니까? $X^T D X$

logistic

— DSKim
소스

당신이 무엇을 얻었 는가

\frac{\partial^{2} l}{\partial θ_{i} \partial θ_{j}}

$\frac{\partial^2 l}{\partial \theta_i \partial \theta_j}$ ?

— Glen_b-복지국 모니카

원하는 정확한 계산을 보여주는 좋은 슬라이드 세트는 다음과 같습니다. sites.stat.psu.edu/~jiali/course/stat597e/notes2/logit.pdf

나는 Hessian을 단계별로 계산하는 멋진 비디오를 발견했습니다. 로지스틱 회귀 (이진)-Hessian 계산

— Naomi

여기서는 솔루션이 자체적으로 포함되는 데 필요한 모든 속성과 ID를 도출하지만이 파생물은 깨끗하고 쉽습니다. 표기법을 공식화하고 손실 함수를 좀 더 간결하게 작성하겠습니다. 고려 샘플 되도록 및 . 이항 로지스틱 회귀 분석에서는 일반적으로 가설 함수 가 로지스틱 함수라는 것을 상기하십시오. 공식적으로 $m$ $\{x_i,y_i\}$ $x_i\in\mathbb{R}^d$ $y_i\in\mathbb{R}$ $h_\theta$

h_{θ} (x_{i}) = σ (ω^{T} x_{i}) = σ (z_{i}) = \frac{1}{1 + e^{- z_{i}}},

$h_\theta(x_i)=\sigma(\omega^Tx_i)=\sigma(z_i)=\frac{1}{1+e^{-z_i}},$

여기서 및 입니다. 손실 기능 (OP에 음수 부호가 없다고 생각)은 다음과 같이 정의됩니다. $\omega\in\mathbb{R}^d$ $z_i=\omega^Tx_i$

l (ω) = \sum_{i = 1}^{m} - (y_{i} \log σ (z_{i}) + (1 - y_{i}) \log (1 - σ (z_{i})))

$l(\omega)=\sum_{i=1}^m -\Big( y_i\log\sigma(z_i)+(1-y_i)\log(1-\sigma(z_i))\Big)$

나중에 참조하기 위해 여기서 유도하는 로지스틱 함수의 두 가지 중요한 특성이 있습니다. 먼저 입니다. $1-\sigma(z)=1-1/(1+e^{-z})=e^{-z}/(1+e^{-z})=1/(1+e^z)=\sigma(-z)$

또한

\begin{aligned} \frac{\partial}{\partial z} σ (z) = \frac{\partial}{\partial z} (1 + e^{- z})^{- 1} = e^{- z} (1 + e^{- z})^{- 2} & = \frac{1}{1 + e^{- z}} \frac{e^{- z}}{1 + e^{- z}} = σ (z) (1 - σ (z)) \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial}{\partial z}\sigma(z)=\frac{\partial}{\partial z}(1+e^{-z})^{-1}=e^{-z}(1+e^{-z})^{-2}&=\frac{1}{1+e^{-z}}\frac{e^{-z}}{1+e^{-z}} =\sigma(z)(1-\sigma(z)) \end{aligned} \end{equation}$

성분에 대한 도함수를 취하는 대신 여기에서 벡터를 직접 사용합니다 ( 여기서는 벡터가있는 도함수를 검토 할 수 있음 ). 손실 함수 의 Hessian은 의해 주어 지지만 먼저 및 . $l(\omega)$ $\vec{\nabla}^2l(\omega)$ $\frac{\partial z}{\partial \omega} = \frac{x^T\omega}{\partial \omega}=x^T$ $\frac{\partial z}{\partial \omega^T}=\frac{\partial \omega^Tx}{\partial \omega ^T} = x$

하자 . 위에서 파생 한 속성과 체인 규칙 사용 $l_i(\omega)=-y_i\log\sigma(z_i)-(1-y_i)\log(1-\sigma(z_i))$

\begin{aligned} \frac{\partial \log σ (z_{i})}{\partial ω^{T}} & = \frac{1}{σ (z_{i})} \frac{\partial σ (z_{i})}{\partial ω^{T}} = \frac{1}{σ (z_{i})} \frac{\partial σ (z_{i})}{\partial z_{i}} \frac{\partial z_{i}}{\partial ω^{T}} = (1 - σ (z_{i})) x_{i} \\ \frac{\partial \log (1 - σ (z_{i}))}{\partial ω^{T}} & = \frac{1}{1 - σ (z_{i})} \frac{\partial (1 - σ (z_{i}))}{\partial ω^{T}} = - σ (z_{i}) x_{i} \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial \log\sigma(z_i)}{\partial \omega^T} &= \frac{1}{\sigma(z_i)}\frac{\partial\sigma(z_i)}{\partial \omega^T} = \frac{1}{\sigma(z_i)}\frac{\partial\sigma(z_i)}{\partial z_i}\frac{\partial z_i}{\partial \omega^T}=(1-\sigma(z_i))x_i\\ \frac{\partial \log(1-\sigma(z_i))}{\partial \omega^T}&= \frac{1}{1-\sigma(z_i)}\frac{\partial(1-\sigma(z_i))}{\partial \omega^T} =-\sigma(z_i)x_i \end{aligned} \end{equation}$

이제는 그것을 보여주는 것은 사소한 일입니다.

\vec{\nabla} l_{i} (ω) = \frac{\partial l_{i} (ω)}{\partial ω^{T}} = - y_{i} x_{i} (1 - σ (z_{i})) + (1 - y_{i}) x_{i} σ (z_{i}) = x_{i} (σ (z_{i}) - y_{i})

$\vec{\nabla}l_i(\omega)=\frac{\partial l_i(\omega)}{\partial \omega^T} =-y_ix_i(1-\sigma(z_i))+(1-y_i)x_i\sigma(z_i)=x_i(\sigma(z_i)-y_i)$

아휴!

마지막 단계는 Hessian을 계산하는 것입니다

{\vec{\nabla}}^{2} l_{i} (ω) = \frac{\partial l_{i} (ω)}{\partial ω \partial ω^{T}} = x_{i} x_{i}^{T} σ (z_{i}) (1 - σ (z_{i}))

$\vec{\nabla}^2l_i(\omega)=\frac{\partial l_i(\omega)}{\partial \omega\partial \omega^T}=x_ix_i^T\sigma(z_i)(1-\sigma(z_i))$

들어 샘플 우리가 . 이것은 벡터 열을 연접 동등 행렬로 크기의 되도록 . 스칼라 항은 되도록 대각 행렬 로 결합됩니다 . 마지막으로, 우리는 결론 $m$ $\vec{\nabla}^2l(\omega)=\sum_{i=1}^m x_ix_i^T\sigma(z_i)(1-\sigma(z_i))$ $x_i\in\mathbb{R}^d$ $X$ $d\times m$ $\sum_{i=1}^m x_ix_i^T=XX^T$ $D$ $D_{ii}=\sigma(z_i)(1-\sigma(z_i))$

\vec{H} (ω) = {\vec{\nabla}}^{2} l (ω) = X D X^{T}

$\vec{H}(\omega)=\vec{\nabla}^2l(\omega)=XDX^T$

모든 샘플을 처음부터 한 번에 고려하고 대신 매트릭스 파생물을 사용하여 더 빠른 접근 방식을 도출 할 수 있습니다. 참고로,이 공식을 사용하면 가 볼록한 것을 보여주는 것은 사소한 일 입니다. 하자 임의 벡터 일되도록 . 그때 $l(\omega)$ $\delta$ $\delta\in\mathbb{R}^d$

δ^{T} \vec{H} (ω) δ = δ^{T} {\vec{\nabla}}^{2} l (ω) δ = δ^{T} X D X^{T} δ = δ^{T} X D (δ^{T} X)^{T} = ‖ δ^{T} D X ‖^{2} \geq 0

$\delta^T\vec{H}(\omega)\delta = \delta^T\vec{\nabla}^2l(\omega)\delta = \delta^TXDX^T\delta = \delta^TXD(\delta^TX)^T = \|\delta^TDX\|^2\geq 0$

및 이기 때문 입니다. 이것은 가 양의 반 음성이므로 이 볼록 하다는 것을 의미합니다 (단, 볼록하지는 않습니다). $D>0$ $\|\delta^TX\|\geq 0$ $H$ $l$

— 마누엘 모랄레스
소스

마지막 방정식에서사람 = ?

| | δ D^{1 / 2} X | |

$||\delta D^{1/2}X||$

X D X^{⊤}

$XDX^\top$

X D^{1 / 2} (X D^{1 / 2})^{⊤}

$XD^{1/2}(XD^{1/2})^\top$

— appletree

이어야하지 않습니까?

X^{T} D X

$X^T D X$

— Chintan Shah