기계 학습에서 왜 첨자 대신 첨자가 사용됩니까?

내가 데려 갈거야 코 세라를 통해 기계 학습에 앤드류 응의 과정을 . 방정식의 경우 아래 첨자 대신 위 첨자가 사용됩니다. 예를 들어, 다음 방정식 에서 대신 이 사용됩니다 . $x^{(i)}$ $x_i$

$J(\theta_0, \theta_1) = \frac{1}{2m} \sum\limits_{i=1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})^2}$

분명히 이것은 일반적인 관행입니다. 내 질문은 왜 첨자 대신 첨자를 사용하는 것입니까? 위첨자는 이미 지수화에 사용됩니다. 나는 괄호가 있는지 여부에주의를 기울임으로써 위첨자와 지수 사용 사례를 명확하게 할 수있는 것처럼 보이지만 여전히 혼란스러워 보입니다.

machine-learning notation

— entpnerd
소스

아마도 일부 컴퓨터 과학 사람들이 표준 수학 표기법에 정통하지 않기 때문에 자신의 표기법을 구성하기 때문일 수 있습니다. 보험 계리사도 때때로 이것을 수행하며 더 복잡한 개념에 도달하면 실망합니다.

— rocinante

되어 i데이터 세트의 크기를 통해 색인, 또는 벡터의 요소를 x? 전자의 경우, 그것은 완전히 표준입니다. 후자의 경우는 완전히 비표준입니다. 그리고 위첨자가 사용되는 이유는 때때로 아래 첨자를 사용하여 벡터의 요소를 참조하기 때문입니다.

— Rex Kerr

@rocinante lol no, 첨자는 이미 인덱싱 벡터에 사용 되었기 때문입니다.

— Neil G

@rocinante 그것은 다소 어리석은 일입니다. 반 변형 벡터 / 아인슈타인 표기법은 어떻습니까?

— Will Vousden

@rocinante 나는 당신의 표현이 불행하다는 것을 강조하면서 다른 사람들을 반향해야합니다. 우리 모두는 지역적이고 친숙한 것을 표준으로 간주하는 경향이 있습니다.

— Nick Cox

답변:

경우 나타내고 벡터 다음 표준 표기법 인 번째의 좌표 , 즉, $x$ $x \in \mathbb R^m$ $x_i$ $i$ $x$

x = (x_{1}, x_{2}, \dots, x_{m}) \in R^{m} .

$x = (x_1, x_2, \ldots, x_m)\in\mathbb R^m.$

벡터로 구성된 컬렉션이 있다면 번째 벡터를 어떻게 표시 하시겠습니까? 쓸 수 없으며 이는 다른 표준 의미를 갖습니다. 때때로 사람들은 쓰고 앤드류 응 (Andrew Ng)이 왜 그렇게하는지 믿습니다. $n$ $i$ $x_i$ $x^{(i)}$

즉

x^{(1)} = (x_{1}^{(1)}, x_{2}^{(1)}, \dots, x_{m}^{(1)}) \in R^{m} x^{(2)} = (x_{1}^{(2)}, x_{2}^{(2)}, \dots, x_{m}^{(2)}) \in R^{m} \dots x^{(n)} = (x_{1}^{(n)}, x_{2}^{(n)}, \dots, x_{m}^{(n)}) \in R^{m} .

$\begin{equation} x^{(1)} = (x_1^{(1)}, x_2^{(1)}, \ldots, x_m^{(1)}) \in \mathbb R^m\\ x^{(2)} = (x_1^{(2)}, x_2^{(2)}, \ldots, x_m^{(2)}) \in \mathbb R^m\\ \ldots \\ x^{(n)} = (x_1^{(n)}, x_2^{(n)}, \ldots, x_m^{(n)}) \in \mathbb R^m.\\ \end{equation}$

— 아메바의 말에 따르면 복원 모니카
소스

동의하지 않지만 가 자주 사용됩니다 (예 : 반복 측정).

x_{i j}

$x_{ij}$

— Cliff AB

예, 그러나 는 내 와 같습니다. 해당하는 것은 무엇 입니까?

x_{i j}

$x_{ij}$

x_{j}^{(i)}

$x^{(i)}_j$

x^{(i)}

$x^{(i)}$

— amoeba는 Reinstate Monica

그렇습니다, 그것은 이점입니다. 생각 종종 사용되지만, 이것과 혼동 될 수 .

x_{i .}

$x_{i.}$

\sum_{j = 1}^{n} x_{i j} / m

$\sum_{j= 1}^n x_{ij}/m$

— Cliff AB

행렬을 반복하려면 이 가장 직관적 인 방법으로 보입니다. 따라서 벡터에서 행렬로 이동할 때 표기법은 일관성을 유지합니다.

x_{m n}^{(i)}

$x_{mn}^{(i)}$

— josh

@JAB 예, 표기법을보다 명확하게 표현해야합니다 ( "타입 힌트"). 물론 하나의 사용 동의 할 수 을 위해 번째 벡터와 에 대한 의 번째 요소 번째 벡터. 가능한 다양한 규칙이 있습니다.이 규칙 중 하나 일뿐입니다. 나는 그것이 최고의 이유라고 말하지 않고 단지 그 이유를 설명합니다.

x_{i}

$x_i$

i

$i$

x_{i j}

$x_{ij}$

j

$j$

i

$i$

— amoeba는 Reinstate Monica가

내가 말한 것처럼 슈퍼 스크립트를 사용하는 것은 기계 학습 문학에서 흔하지 는 않습니다 . Ng의 강의 노트를 확인하기 위해 검토해야했지만, 만약 그가 그것을 사용한다면, 그가이 표기법의 확산의 기원이 될 것이라고 말할 것입니다. 가능성이 있습니다. 어느 쪽이든, 너무 불친절하지는 않지만 많은 온라인 과정 학생들이 기계 학습에 관한 출판물을 출판한다고 생각하지 않으므로이 표기법은 실제 문헌에서 그리 일반적이지 않습니다. 결국, 이들은 박사 과정이 아닌 기계 학습의 입문 과정입니다.

수퍼 스크립트에서 가장 일반적인 것은 수퍼 스크립트를 사용하여 알고리즘의 반복을 나타내는 것입니다. 예를 들어, Newton의 방법을 다음과 같이 반복하여 작성할 수 있습니다.

$\theta^{(t+1)} = \theta^{(t)} - H(\theta^{(t)}) ^{-1} \nabla \theta^{(t)}$

여기서 는 Hessian이고 는 그래디언트입니다. $H(\theta^{(t)})$ $\nabla \theta^{(t)}$

(... 그렇지만 이것이 헤 시안 행렬의 반전으로 인해 뉴턴의 방법을 구현하는 가장 좋은 방법은 아닙니다 ...)

여기서 는 반복 에서 의 값을 나타냅니다 . 이것은 내가 알고있는 수퍼 스크립트를 가장 일반적으로 사용하는 것입니다. $\theta^{(t)}$ $\theta$ $t^{th}$

편집 : 원래의 질문에서 명확히하기 위해 ML 표기법에서 는 통계의 표기법 과 동일 하다는 것을 암시하는 것처럼 보였습니다 . 내 대답으로, 나는 이것이 ML 문학에서 실제로 널리 퍼진 것은 아니라고 말합니다. 사실입니다. 그러나 @amoeba에 의해 지적 된 바와 같이, 데이터에 대한 ML 문헌에는 많은 위첨자 표기법이 있지만,이 경우 는 일반적으로 단일 벡터 의 관측을 의미하지는 않습니다 . $x^{(i)}$ $x_i$ $x^{(i)}$ $i^{th}$ $x$

— 클리프 AB
소스

반복 횟수에 괄호로 묶거나 괄호로 묶은 위첨자를 사용하는 충돌 (광범위한 영역에서 공통적으로 사용되는 표기법)은 실제로 중요합니다.

— Glen_b-복지 주 모니카

또한 훈련 세트의 샘플 인덱스를 나타내는 데 일반적으로 사용되는데, 이는 반복과 유사하지만 일반적으로 훈련 세트를 여러 번 반복하기 때문에 정확히 동일하지는 않습니다.

— Rex Kerr

또한 첨자 ( )와 줄 ( )을 사용하여 반복 횟수를 기록했습니다 . 그렇기 때문에 특정 표기법을 사용할 때 일반적으로 처음에 명확하게 설명하지 않을 것입니다 (예 : "다음 시리즈에서 blah blah blah"라고 말한 다음 수학). 따라서 어떤 표기법을 사용하든 독자는 자신이 알고있는 규칙에 따라 추측하지 않고 잠재적으로 모호한 경우에 대한 의미를 직관적으로 이해할 수 있습니다.

a_{n + 1} = a_{n} + 1

$a_{n+1} = a_n + 1$

a (n + 1) = a (n) + 1

$a(n+1) = a(n) + 1$

— JAB

(x > 0)

$(x > 0)$

I (x > 0)

$I(x > 0)$

I (x > 0)

$I(x > 0)$

x > 0

$x > 0$

=

$=$ ===

위첨자는 이미 지수화에 사용됩니다.

수학에서 위첨자는 필드에 따라 좌우로 사용됩니다. 선택은 항상 역사적 유산입니다. 처음 현장에 들어간 사람은 첨자 또는 첨자 사용 규칙을 설정했습니다.

두 가지 예. 위첨자는 파생 상품을 나타내는 데 사용됩니다. $f(x)^{(n)}$

에서 텐서 슈퍼와 첨자 모두가 같은 같은 일을 위해 많이 사용되는 대수 의미 할 수 있었다 행과 열을. 매우 표현력이 : $R^i_i$ $i$ $j$ $T_i^k=R_i^jC_j^k$

또한 물리학에서 글자 (prescripts) 앞에 스크립트를 사용하는 것을 기억합니다 (예 : . 나는 그것이 텐서와 함께 있다고 생각합니다. $^i_jB_k^l$

따라서 Ng의 위첨자 선택은 순전히 역사적입니다. 그것들을 사용하거나 사용하지 않을 실질적인 이유가 없거나 첨자를 선호합니다. 사실, 나는 여기서 ML 사람들이 텐서 표기법을 사용하고 있다고 생각합니다. 그들은 확실히 잘 예를 들어보고, 주제에 정통한 이 종이.

— 악사 칼
소스

당신의 점에 대한 또 다른 예 : 아인슈타인 표기법

— 닐 G