Andrew Ng의 기계 학습 과정에서 그는 다음 공식을 사용합니다.
그는 다음과 같이 빠른 증거를 수행합니다.
아무런 증거없이 증거가 매우 밀도가 높아서 이해하기가 어렵습니다. 두 번째에서 세 번째로의 평등은 정확히 무엇입니까?
Andrew Ng의 기계 학습 과정에서 그는 다음 공식을 사용합니다.
그는 다음과 같이 빠른 증거를 수행합니다.
아무런 증거없이 증거가 매우 밀도가 높아서 이해하기가 어렵습니다. 두 번째에서 세 번째로의 평등은 정확히 무엇입니까?
답변:
미묘하지만 많은 표기법을 남용하여 많은 단계를 혼란스럽게합니다. 행렬 곱셈, 전치, 트레이스 및 미분의 정의로 돌아가서이 문제를 해결해 봅시다. 설명을 생략하고 싶은 분들은 마지막 섹션 인 "Putting It All Together"로 넘어 가서 엄밀하고 간단한 데모를 할 수 있습니다.
표현식 B ' C가 될 때 이해하기 위해 , A는 이다 m × N 행렬, B는 A (사각형)이어야 N × N 행렬 C는 있어야 m × P의 제품이 어디서 왔는지 행렬 m × P의 행렬 . (대각 원소의 합이되는 추적을 수행하기 위하여 TR ( X ) = Σ 내가 X 나 난 후) P = m 만드는 C가 정사각 행렬.
표기 " "에 대한 식의 유도체를 참조 표시 . 일반적으로 미분은 기능 f : R N → R M 에서 수행되는 작업 입니다. 점 x ∈ R N 에서의 미분은 선형 변환 D f ( x ) : R N → R M 입니다. 이들 벡터 공간에 대한 염기를 선택할 때, 그러한 변환은 M × N 행렬 로 표현 될 수있다 . 여기서는 그렇지 않습니다!
대신 는 R m n 의 요소로 간주됩니다 . 계수는 길이가 N = m n 인 벡터로 롤링됩니다 (일반적으로 행 단위 또는 열 단위) . 함수 f ( A ) = Tr ( A B A ' C ) 는 M = 1 인 경우 실제 값을 갖습니다 . 결과적으로 D f ( x ) 는 1 × m n 행렬 이어야합니다 . 이것은 선형 형태를 나타내는 행 벡터입니다. . 그러나 문제의 계산은 선형 형태를 나타내는다른방법을사용합니다. 계수는m×n행렬로 롤백됩니다.
하자 일정한 수의 m × n 개의 매트릭스. 그리고 트레이스와 행렬 곱셈의 정의에 의해
이 계수의 가장 일반적인 가능한 선형 조합으로 표현 : ω가 동일하게 형상의 행렬 과 행의 계수 I 및 열 j는 계수이다 I J 선형 조합이다. 때문에 ω I J I J = I J ω I J 의 역할 ω 및 A는 등가 식을 제공 할 수있다 절환
상수 행렬 식별함으로써 기능 중 하나로 → TR ( ω ' ) 또는 → 수 Tr ( ω ' ) , 우리의 공간 선형 형태 나타낼 수 m × N 매트릭스 등의 m × n 개의 매트릭스. ( R n 에서 R m 까지의 함수 파생과 혼동하지 마십시오 !)
통계에서 발생하는 많은 행렬 함수의 파생물은 정의에서 가장 쉽고 안정적으로 계산됩니다. 복잡한 행렬 차별화 규칙에 의존 할 필요가 없습니다. 이 정의는 있다고 에서 미분이고 , X 는 선형 변환이있다 경우만 L 이 그러한
임의의 작은 변위에 대한 . 차분 근사화에서 이루어진 것으로 에러 작은-OH 표기 수단 F ( X + H ) - F ( X를 ) 가 L에서 H는 사이즈보다 작은 임의의 시간 이 충분히 작은위한 시간 . 특히, 우리는 항상 | h | 2 .
해당 함수에 정의를 적용 해 봅시다. 2 의 곱으로 항을 곱하고 확장하고 무시하며 ,
미분 을 식별하려면 이를 ( 1 ) 형식으로 만들어야합니다 . 오른쪽의 첫 번째 항은 이미이 형식으로되어 있으며 ω = B A ' C 입니다. 오른쪽의 다른 항 은 X = A B에 대한 Tr ( X h ' C ) 형식 입니다 . 이것을 써 봅시다 :
호출 하면 ( 2 ) 를 다시 쓸 수 있습니다
그것은 인 이 우리의 유도체를 고려할 수 있음을 의미 에 수 D의 F ( ) = ( B ' C ) ' + C B = C ' B ' + C B , 이들 매트릭스가 재생 때문에 미량 공식에서 ω의 역할 ( 1 ) .
그렇다면 완벽한 솔루션입니다.
하자 수 m × N 행렬 B N × N 행렬과 C m × m의 매트릭스. f ( A ) = Tr ( A B A ' C ) 이라고하자 . 하자 H는 수 m × n은 임의의 작은 계수 행렬. (식별 ( 3 )에 의해 ) f ( A + h ) − f ( F는미분이고 그것의 유도체는 선형 형태의 매트릭스에 의해 결정되는C'B'+CB.
이것은 작업의 절반 정도만 걸리고 행렬과 트레이스의 가장 기본적인 조작 (곱셈과 전치) 만 포함하기 때문에 결과를보다 단순하고 명백하게 설명해야합니다. 원래 데모의 개별 단계를 실제로 이해하려면 여기에 표시된 계산과 비교하는 것이 유익 할 수 있습니다.