“기능과 클래스 간 매개 변수 공유”는 무엇을 의미합니까?

이 문서를 읽을 때 "선형 분류기는 기능과 클래스간에 매개 변수를 공유하지 않습니다."라는 문구가 있습니다. 이 진술의 의미는 무엇입니까? 로지스틱 회귀와 같은 선형 분류기는 서로 독립적 인 기능이 필요합니까?

machine-learning logistic-regression multilabel-classification

가장 간단한 선형 분류기 중 하나 인 로지스틱 회귀 분석을 통해이 질문에 대답하려고합니다 .

로지스틱 회귀 분석의 가장 간단한 경우는 이진 분류 작업 ( 과 입력 기능 ( )이 하나 뿐인 경우 입니다. 이 경우 로지스틱 회귀의 결과는 다음과 같습니다. $y \in\{0,1\})$ $x \in R$

여기서,및모두스칼라. 모델의 출력확률에 대응하고 그클래스이어야한다.

\hat{y} = σ (w \cdot x + b)

$\hat y = σ(w \cdot x + b)$

w

$w$

b

$b$

\hat{y} \in [0, 1]

$\hat y \in [0,1]$

x

$x$

1

$1$

"선형 분류기는 피쳐와 클래스간에 매개 변수를 공유하지 않습니다" 라는 문구 를 두 부분으로 분류 하려고합니다 . 로지스틱 회귀가 해당 작업에 대한 매개 변수를 공유하는지 확인하기 위해 여러 기능과 여러 클래스의 사례를 개별적으로 조사합니다.

선형 분류기는 기능간에 매개 변수를 공유합니까?

이 경우 각 예에서 는 (이전과 같이) 이진 값을 취하는 스칼라이고 는 길이 의 벡터 입니다 (여기서 은 피처 수). 여기서 출력은 입력 기능의 선형 조합입니다 (즉, 이러한 기능의 가중치 합계와 바이어스). $y$ $x$ $N$ $N$

여기서 와 는 길이 벡터입니다. 곱 는 스칼라를 생성합니다. 이 A는 위에서를 알 수있는 바와 같이별도의 중량 각 입력에 대한 기능은 이러한 가중치는독립적꼭. 이것으로부터 우리는기능들간에 매개 변수 공유가없다고결론 내릴 수있습니다.

\hat{y} = σ (\sum_{i}^{N} (w_{i} \cdot x_{i}) + b) o r σ (w \cdot x + b)

$\hat y = σ \left(\sum_i^N{(w_i \cdot x_i)} + b\right) \;\; or \;\; σ( \mathbf w \cdot \mathbf x + b)$

x

$\mathbf x$

w

$\mathbf w$

N

$N$

x \cdot w

$\mathbf x \cdot \mathbf w$

w_{i}

$w_i$

x_{i}

$x_i$

선형 분류기는 클래스간에 매개 변수를 공유합니까?

이 경우 는 스칼라이지만 는 길이 의 벡터 입니다 (여기서 은 클래스 수). 이를 해결하기 위해 로지스틱 회귀는 기본적으로 각 클래스 에 대해 별도의 출력 를 생성합니다 . 각 출력은 스칼라 이며 가 클래스 속할 확률에 해당합니다 . $x$ $y$ $M$ $M$ $y_j$ $M$ $y_j \in [0,1]$ $x$ $j$

\hat{y} = w \cdot x + b, w h e r e \hat{y} = {\hat{y}}_{1}, {\hat{y}}_{2}, . . ., y_{M}

$\mathbf{ \hat y} = w \cdot \mathbf x + \mathbf b, \;\; where \;\; \mathbf{ \hat y} = {\hat y_1, \hat y_2, ..., y_M}$

$M$

{\hat{y}}_{j} = σ (w_{j} \cdot x + b_{j})

$\hat y_j = σ(w_j \cdot x + b_j)$

From the above it is obvious that no weights are shared among the different classes.

multi-feature and multi-class:

By combining the two cases above we can finally reach the most general case of multiple features and multiple classes:

\hat{y} = σ (W \cdot x + b)

$\mathbf{ \hat y} = σ( \mathbf W \cdot \mathbf x + \mathbf b)$ where

\hat{y}

$\mathbf{ \hat y}$ is a vector with a size of

M

$M$ ,

x

$\mathbf x$ is a vector with a size of

N

$N$ ,

b

$\mathbf b$ is a vector with a size of

M

$M$ and

W

$W$ is a matrix with a size of

(N \times M)

$(N \times M)$ .

In any case, linear classifiers do not share any parameters among features or classes.

To answer your second question, linear classifiers do have an underlying assumption that features need to be independent, however this is not what the author of the paper intended to say.

— Djib2011
소스

Nice explanation. :)

— joydeep bhattacharjee