행렬 함수의 미분에 대한이 계산이 무엇을 정당화합니까?


10

Andrew Ng의 기계 학습 과정에서 그는 다음 공식을 사용합니다.

아르 자형()=+

그는 다음과 같이 빠른 증거를 수행합니다.

아르 자형()=아르 자형(에프())=아르 자형(에프())+아르 자형(에프())=()에프'()+(아르 자형(에프())=+(아르 자형()에프())=+((에프()))=+

아무런 증거없이 증거가 매우 밀도가 높아서 이해하기가 어렵습니다. 두 번째에서 세 번째로의 평등은 정확히 무엇입니까?


그는 , BC 의 차원에 대해 특별한 가정을해야합니다. 그렇지 않으면이 공식은 일반적으로 의미가 없습니다. 왼쪽에서 A 는 음수가 아닌 정수 i , j , m의 경우 i x j 행렬, B a j x j 행렬 및 C a i x m 행렬 이어야합니다 . 그러나 i = m이 아니면 오른쪽의 제품은 정의되지 않습니다 . AB나는×제이제이×제이나는×미디엄나는,제이,미디엄나는=미디엄
whuber

@ whuber 알겠습니다. 가정을 감안할 때, 나는 그가 를 소개하는 두 번째 줄에서 세 번째 줄로의 전환이 어떻게 발생했는지 여전히 이해하지 못합니다 .
MoneyBall

두 번째 줄과 세 번째 줄 사이에 그는 합니다. 두 번째 줄과 세 번째 줄 사이에서 그는 제품 규칙을 사용했습니다. 나중에 그는 체인 규칙을 사용하여 f ( )를 제거 합니다. 에프()=에프()
브라이언 Borchers

답변:


14

미묘하지만 많은 표기법을 남용하여 많은 단계를 혼란스럽게합니다. 행렬 곱셈, 전치, 트레이스 및 미분의 정의로 돌아가서이 문제를 해결해 봅시다. 설명을 생략하고 싶은 분들은 마지막 섹션 인 "Putting It All Together"로 넘어 가서 엄밀하고 간단한 데모를 할 수 있습니다.


표기법과 개념

치수

표현식 B ' C가 될 때 이해하기 위해 , A는 이다 m × N 행렬, B는 A (사각형)이어야 N × N 행렬 C는 있어야 m × P의 제품이 어디서 왔는지 행렬 m × P의 행렬 . (대각 원소의 합이되는 추적을 수행하기 위하여 TR ( X ) = Σ 내가 X 후) P = m 만드는 C가'미디엄××미디엄×미디엄×TR(엑스)=나는엑스나는나는=미디엄 정사각 행렬.

파생 상품

표기 " "에 대한 식의 유도체를 참조 표시 . 일반적으로 미분은 기능 f : R NR M 에서 수행되는 작업 입니다. 점 x R N 에서의 미분은 선형 변환 D f ( x ) : R NR M 입니다. 이들 벡터 공간에 대한 염기를 선택할 때, 그러한 변환은 M × N 행렬 로 표현 될 수있다 . 여기서는 그렇지 않습니다!에프:아르 자형아르 자형미디엄엑스아르 자형에프(엑스):아르 자형아르 자형미디엄미디엄×

벡터로서의 행렬

대신 R m n 의 요소로 간주됩니다 . 계수는 길이가 N = m n 인 벡터로 롤링됩니다 (일반적으로 행 단위 또는 열 단위) . 함수 f ( A ) = Tr ( A B A ' C )M = 1 인 경우 실제 값을 갖습니다 . 결과적으로 D f ( x )1 × m n 행렬 이어야합니다 . 이것은 선형 형태를 나타내는 행 벡터입니다.아르 자형미디엄=미디엄에프()=TR(')미디엄=1에프(엑스)1×미디엄 . 그러나 문제의 계산은 선형 형태를 나타내는다른방법을사용합니다. 계수는m×n행렬로 롤백됩니다.아르 자형미디엄m×n

선형 형태의 흔적

하자 일정한 수의 m × n 개의 매트릭스. 그리고 트레이스와 행렬 곱셈의 정의에 의해ωm×n

Tr(Aω)=i=1m(Aω)ii=i=1m(j=1nAij(ω)ji)=i,jωijAij

이 계수의 가장 일반적인 가능한 선형 조합으로 표현 : ω가 동일하게 형상의 행렬 과 행의 계수 I 및 열 j는 계수이다 I J 선형 조합이다. 때문에 ω I J I J = I J ω I J 의 역할 ωA는 등가 식을 제공 할 수있다 절환AωAijAijωijAi제이=나는제이ω나는제이ω

(1)나는,제이ω나는제이나는제이=TR(ω')=TR(ω').

상수 행렬 식별함으로써 기능 중 하나로 TR ( ω ' ) 또는 수 Tr ( ω ' ) , 우리의 공간 선형 형태 나타낼 수 m × N 매트릭스 등의 m × n 개의 매트릭스. ( R n 에서 R m 까지의 함수 파생과 혼동하지 마십시오 !)ωATr(Aω)ATr(ωA)m×nm×nRnRm


파생 계산

정의

통계에서 발생하는 많은 행렬 함수의 파생물은 정의에서 가장 쉽고 안정적으로 계산됩니다. 복잡한 행렬 차별화 규칙에 의존 할 필요가 없습니다. 이 정의는 있다고 에서 미분이고 , X 는 선형 변환이있다 경우만 L 이 그러한fxL

f(x+h)f(x)=Lh+o(|h|)

임의의 작은 변위에 대한 . 차분 근사화에서 이루어진 것으로 에러 작은-OH 표기 수단 F ( X + H ) - F ( X를 )L에서 H는 사이즈보다 작은 임의의 시간 이 충분히 작은위한 시간 . 특히, 우리는 항상 | h | 2 .hRNf(x+h)f(x)Lhhh|h|2

계산

해당 함수에 정의를 적용 해 봅시다. 2 의 곱으로 항을 곱하고 확장하고 무시하며 ,h

(2)f(A+h)f(A)=Tr((A+h)B(A+h)C)Tr(ABAC)=Tr(hBAC)+Tr(ABhC)+o(|h|).

미분 을 식별하려면 이를 ( 1 ) 형식으로 만들어야합니다 . 오른쪽의 첫 번째 항은 이미이 형식으로되어 있으며 ω = B A ' C 입니다. 오른쪽의 다른 항 은 X = A B에 대한 Tr ( X h ' C ) 형식 입니다 . 이것을 써 봅시다 :L=Df(A)(1)ω=BACTr(XhC)X=AB

(삼)TR(엑스h')=나는=1미디엄제이=1케이=1미디엄엑스나는제이h케이제이케이나는=나는,제이,케이h케이제이(케이나는엑스나는제이)=TR((엑스)h').

호출 하면 ( 2 ) 를 다시 쓸 수 있습니다엑스=(2)

에프(+h)에프()=TR(h')+TR(h')+영형(|h|).

그것은 인 우리의 유도체를 고려할 수 있음을 의미 에 수 D의 F ( ) = ( B ' C ) ' + C B = C ' B ' + C B , 이들 매트릭스가 재생 때문에 미량 공식에서 ω의 역할 ( 1 ) .에프

에프()=(')'+=''+,
ω(1)

함께 모아서

그렇다면 완벽한 솔루션입니다.

하자 m × N 행렬 B N × N 행렬과 C m × m의 매트릭스. f ( A ) = Tr ( A B A ' C ) 이라고하자 . 하자 H는m × n은 임의의 작은 계수 행렬. (식별 ( 3 )에 의해 ) f ( A + h ) f (미디엄××미디엄×미디엄에프()=TR(')h미디엄×() F는미분이고 그것의 유도체는 선형 형태의 매트릭스에 의해 결정되는C'B'+CB.

에프(+h)에프()=TR(h')+TR(h')+영형(|h|)=TR(h('')'+()h')+영형(|h|),
에프
''+.

이것은 작업의 절반 정도만 걸리고 행렬과 트레이스의 가장 기본적인 조작 (곱셈과 전치) 만 포함하기 때문에 결과를보다 단순하고 명백하게 설명해야합니다. 원래 데모의 개별 단계를 실제로 이해하려면 여기에 표시된 계산과 비교하는 것이 유익 할 수 있습니다.


1
tr()=tr()

1
(1)매트(미디엄,)미디엄×에프:매트(미디엄,)아르 자형ω에프()엑스: →TR(엑스ω')

2
@Amoeba 정확히 맞습니다.이 답변의 첫 번째 줄에있는 주장을 충분히 정당화합니다. 이것이 내가 " 의미에서" 쓴 이유 이고 나중에 요약에서 "같음"보다는 "결정된"이라는 구를 사용했습니다. 나는 설명이 도전적이라는 것을 부정하지는 않을 것이다. 나는 그것을 명확히하는 방법에 대해 생각하고 모든 의견과 제안에 감사드립니다.
whuber

1
@ user10324이 사이트에 게시하는 대부분의 내용은 제 자신의 공식입니다. 소스를 거의 참조하지 않습니다. 이 게시물은 많은 책과 논문을 읽지 않은 것입니다. 최고의 책 중 일부는 완전히 수학적으로 엄격한 책은 아니지만 근본적인 아이디어를 아름답게 설명하고 묘사 한 책이었습니다. 정교함을 염두에두고 처음 떠오르는 소수는 Freedman, Pisani, & Purves, Statistics (모든 판)입니다. Jack Kiefer, 통계적 추론 소개 ; and Steven Shreve, Stochastic Calculus for Finance II .
whuber

1
에프(엑스+h)에프(엑스)=h+영형(|h|)h엑스엑스아르 자형미디엄×h아르 자형미디엄×
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.