최근에 많은 사람들이 많은 방법 (텐서 분해, 텐서 커널, 주제 모델링을위한 텐서 등)과 같은 텐서를 개발하고 있음을 알았습니다. 왜 세상이 갑자기 텐서에 매료됩니까? 특히 놀라운 최신 논문 / 표준 결과가 있습니까? 이전에 예상했던 것보다 계산 비용이 훨씬 저렴합니까?
나는 냉담하지 않고, 진심으로 관심이 있으며, 이것에 관한 논문에 대한 조언이 있다면, 나는 그것을 읽고 싶습니다.
최근에 많은 사람들이 많은 방법 (텐서 분해, 텐서 커널, 주제 모델링을위한 텐서 등)과 같은 텐서를 개발하고 있음을 알았습니다. 왜 세상이 갑자기 텐서에 매료됩니까? 특히 놀라운 최신 논문 / 표준 결과가 있습니까? 이전에 예상했던 것보다 계산 비용이 훨씬 저렴합니까?
나는 냉담하지 않고, 진심으로 관심이 있으며, 이것에 관한 논문에 대한 조언이 있다면, 나는 그것을 읽고 싶습니다.
답변:
텐서는 종종보다 자연스러운 데이터 표현을 제공합니다. 예를 들어 비디오를 고려하면 시간이 지남에 따라 분명히 상관 된 이미지로 구성됩니다. 이것을 행렬로 바꿀 수 는 있지만 자연 스럽거나 직관적이 아닙니다 (일부 비디오 표현의 인수 분해는 무엇을 의미합니까?).
텐서는 여러 가지 이유로 경향이 있습니다.
귀하의 질문은 질문 자체와 마찬가지로 자유롭게 진행되고 개방적인 답변과 일치해야한다고 생각합니다. 자, 여기 그들은 나의 두 가지 비유입니다.
첫째, 순수한 수학자가 아니라면 일 변량 확률과 통계를 먼저 배웠을 것입니다. 예를 들어, 대부분 첫 번째 OLS의 예는이 같은 모델에 아마이었다
그런 다음 나중에 벡터 (매트릭스) 표기법 으로이 작업을 수행하는 더 쉬운 방법이 있다고 알려줍니다 :
TTS는 다음과 같이된다 :
FOC는 다음과 같다 :
용액은
선형 대수학에 능숙하다면, 두 번째 접근법을 배운 후에는 특히 첫 번째 접근법의 모든 합계를 적어 놓는 것보다, 특히 다변량 통계에 도달하는 것이 더 쉽기 때문에 두 번째 접근법을 고수 할 것입니다.
따라서 내 비유는 행렬에서 텐서로 이동하는 것이 벡터에서 행렬로 이동하는 것과 유사하다는 것입니다. 텐서를 알고 있으면 몇 가지 방법이 더 쉬워 보일 것입니다.
둘째, 텐서의 출처는 어디입니까? 나는이 일의 전체 역사에 대해 확신하지 못하지만 이론적 역학에서 배웠습니다. 확실히, 우리는 텐서에 대한 코스를 가지고 있었지만, 나는 그 수학 코스에서 인덱스를 교환하는 이러한 모든 멋진 방법과 어떻게 관련이 있는지 이해하지 못했습니다. 긴장력을 연구하는 맥락에서 모두 이해하기 시작했습니다.
따라서 물리학에서는 단위 면적당 힘으로 정의 된 간단한 압력 예제로 시작합니다. 따라서
그러나 재료 내부에서 장력을 연구하는 경우 가능한 모든 방향과 표면을 처리해야합니다. 이 경우 수직면뿐만 아니라 모든 방향으로 당기거나 밀는 표면에 힘이 가해집니다. 일부 표면은 접선 력 "옆으로"등에 의해 찢어집니다. 따라서 방정식은 다음과 같이됩니다.
좋아, 스칼라와 벡터도 텐서입니다 :)
텐서가 자연스럽게 나타나는 또 다른 장소는 공분산 또는 상관 행렬입니다. 그냥이 생각 : 어떻게 상관 행렬 일단 변환하는 다른 하나에 ? 당신은 우리가 이런 식으로 할 수 없어 실현 :
그래서 우리는 경로를 찾아야 할 것 등 그 여기서 매트릭스에 작은 소동이다. 여러 가지 경로가 있으며 가장 짧은 경로를 검색 할 수 있습니다. 이것이 우리가 Riemannian 지오메트리, 매니 폴드 및 텐서에 들어가는 방법입니다.
업데이트 : 어쨌든 텐서 란 무엇입니까?
@amoeba와 다른 사람들은 텐서의 의미와 그것이 배열과 같은지에 대해 활발하게 토론했습니다. 그래서 나는 예가 순서라고 생각했습니다.
우리는 식료품 점을 사기 위해 바자회에 간다. 그리고 두 상인 친구 과 . 우리는 발견 우리가 지불하는 경우 있음 에 달러를 및 에 달러 다음 우리를 판매 사과의 파운드와 우리를 판매 오렌지. 예를 들어, 1 달러, 즉 모두 지불하면 사과 1 파운드와 오렌지 1.5를 받아야합니다.
이 관계를 행렬 의 형태로 표현할 수 있습니다 .
2 -1
-0.5 2
그런 다음 상인은 우리가 달러를 지불하면이 많은 사과와 오렌지를 생산합니다 :
이것은 벡터 곱셈에 의한 행렬처럼 정확하게 작동합니다.
이제이 판매자로부터 상품을 별도로 구매하는 대신, 우리가 이용하는 두 개의 지출 번들이 있다고 선언합니다. 우리 중 하나는 모두 0.71 달러를 지불, 또는 우리가 지불 0.71 달러를으로부터 0.71 달러를 요구 백. 초기 경우와 마찬가지로, 우리는 시장에 가서 번들 1 에서 을 보내고 번들 2 에서 를 소비 합니다.
따라서 번들 1에 만 사용하는 예를 살펴 보겠습니다 .이 경우 첫 번째 판매자는 달러를 받고 두 번째 판매자는 동일한 얻습니다 . 그러므로 우리는 위의 예에서와 같은 양의 농산물을 얻어야합니다.
그럴 수도 있고 아닐 수도있다. 행렬이 대각선이 아님을 알았습니다 . 이것은 어떤 이유로 자신의 농산물에 대해 한 판매자가 청구하는 금액이 다른 판매자에게 지불 한 금액에 달려 있음을 나타냅니다. 그들은 아마도 소문을 통해 얼마를 지불하는지에 대한 아이디어를 얻어야합니까? 이 경우 번들을 구매하기 시작하면 번들을 시장에 선언하기 때문에 각 번들에 지불하는 금액을 확실히 알 수 있습니다. 이 경우 행렬이 동일하게 유지되어야한다는 것을 어떻게 알 수 있습니까?
어쩌면 시장에서 우리의 지불에 대한 전체 정보로 가격 책정 공식도 변경 될 것입니다! 이것은 행렬 를 바꿀 것이며 , 정확히 어떻게 말할 수는 없습니다.
우리가 텐서에 들어가는 곳입니다. 본질적으로 텐서를 사용하면 각 판매자와 직접 거래하지 않고 번들로 거래를 시작할 때 계산이 변경되지 않는다고 말합니다. 이것이 제약 조건이며, 변환 규칙을 적용 할 것이며,이를 텐서라고 부릅니다.
특히, 우리는 우리가 직교 정상 기저 가지고 있음을 알 수 있습니다 . 여기서, 는 상인 에게 1 달러를 지불 하고 다른 것에는 아무것도 지불 하지 않음을 의미합니다. 우리는 또한 묶음들이 직교 정규 기초 ˉ d ′ 1 , ˉ d ′ 2를 형성한다는 것을 알 수있다이는 또한 시계 반대 방향으로 45도만큼 첫 번째 기준의 간단한 회전입니다. 또한 첫 번째 기초의 PC 분해입니다. 따라서 번들로 전환하는 것은 단순한 좌표 변경이며 계산을 변경해서는 안된다고 말합니다. 이것은 우리가 모델에 부과 한 외부 제약 조건입니다. 그것은 행렬의 순수한 수학 속성에서 나온 것이 아닙니다.
이제 우리의 쇼핑은 벡터 로 표현 될 수 있습니다 . 벡터도 텐서입니다. 텐서는 흥미 롭다 : 그것은
이제 좌표를 번들로 변경하면 텐서 방정식은 동일하게 유지됩니다.
멋지지만 지불 벡터는 이제 다른 기준에 있습니다 :
텐서 변환에 대한 공식을 계산할 수 있으며 및 예제와 동일한 결과를 얻을 수 있습니다 .
So, let's look at an example where we spend just z1=1.42 on bundle 1. In this case, the first merchant gets x1=1 dollars, and the second merchant gets the same x2=1.
이전에 당신은 첫 번째 번들은 우리라고 말합니다 pay both 0.71 dollars
. 따라서 첫 번째 번들에서 1.42를 소비하면 1이 아닌 각각 0.71을 얻습니다.
이것은 귀하의 질문에 대한 답변이 아니라, 여기에 다른 사람들의 의견으로 제기 된 문제에 대한 확장 된 의견입니다 .
이제 Cichoki 2014, 빅 데이터 처리 시대 : Tensor Networks 및 Tensor Decompositions를 통한 새로운 접근 방식 및 Cichoki et al. 2014 년, 신호 처리 애플리케이션을위한 텐서 분해 ,
고차 텐서는 다자간 배열로 해석 될 수있다 ...]
텐서는 다중 인덱스 숫자 배열로 생각할 수 있습니다 ...]
텐서 (즉, 다 방향 배열) [...]
이것은 수학과 물리학에서 텐서가 정의되는 방식이 아닙니다!
(그리고 반례가있는 사람은 의견에 알려주십시오)
나의 결론은 : (a) 기계 학습 텐서는 수학 / 물리 텐서가 아니며, (b) 텐서 제품의 요소로 보는 것도 대부분 유용하지 않습니다.
대신, 행렬의 다차원 일반화입니다. 불행히도, 그에 대한 수학적 용어가 확립되어 있지 않기 때문에 "tensor"라는 새로운 의미가 그대로 남아있는 것 같습니다.
신경망을 연구하고 구축하고이 질문을 반복적으로 요청하는 사람으로서, 나는 우리가 텐서 표기법의 유용한 측면을 빌려서 파생을 훨씬 쉽게 만들고 그라디언트를 원래 모양으로 유지한다는 결론에 도달했습니다. 텐서 체인 규칙은 내가 본 가장 우아한 파생 도구 중 하나입니다. 추가 텐서 표기법은 일반적인 확장 버전의 벡터 미적분을 사용할 때 단순히 악몽 인 계산 효율적인 단순화를 장려합니다.
예 를 들어 Vector / Matrix 미적분학 에는 4 가지 유형의 행렬 곱 (Hadamard, Kronecker, Ordinary 및 Elementwise)이 있지만 텐서 미적분법 에는 곱셈의 한 가지 유형 만 있지만 모든 행렬 곱셈 등을 포함합니다. 관대하고 싶다면 텐서를 해석하여 우리가 조작하는 객체가 텐서가 아니라 텐서 기반 미적분을 사용하여 파생물을 찾으려고하는 다차원 배열을 의미합니다 .
대부분의 머신 러닝 전문가들은 높은 수준의 수학 또는 물리학의 정의를 준수하는 것에 대해 그다지 신경 쓰지 않기 때문에 모든 정직에서 우리는 아마도 다차원 배열 텐서라고 부를 것입니다. 현실은 우리가 잘 개발 된 아인슈타인 서머 레이션 컨벤션과 캘리 를 빌려주는 것인데, 이는 일반적으로 텐서를 설명 할 때 사용되며 아인슈타인 서약 컨벤션 기반 미적분학을 반복해서 말하고 싶지 않습니다. 언젠가 우리는 신경망을 분석하기 위해 특별히 텐서 미적분학에서 필요한 것을 훔치지 만 시간이 걸리는 어린 분야로 새로운 표기법과 규칙을 개발할 수도 있습니다.
이제 실제로 다른 답변의 내용 대부분에 동의합니다. 그러나 나는 악마의 옹호자를 한 지점에서 연기 할 것입니다. 다시 말하지만, 그것은 자유롭게 흐를 것이므로 사과드립니다 ...
구글은 딥 러닝을위한 텐서 플로우 (Tensor Flow)라는 프로그램을 발표했다. 이것은 내가 본 정의에 연결할 수 없었기 때문에 딥 러닝에 대한 '텐서'가 무엇인지 궁금해했습니다.
이제 아이디어는 원래 좌표 의 유용한 표현 에 도달하기 위해 여러 가지 변형을 함께 연결하는 것입니다 . 예를 들어, 이미지를 마지막으로 변환 한 후 간단한 로지스틱 회귀는 우수한 분류 정확도를 생성합니다. 반면 원시 이미지에서는 그렇지 않습니다.
이제, 시력에서 잃어버린 것처럼 보이는 것은 적절한 텐서에서 찾은 불변 속성입니다. 특히 변환 된 변수의 차원이 계층마다 다를 수 있습니다. [예를 들어, 내가 텐서에서 본 것들 중 일부는 제곱이 아닌 제이콥이 아닌 사람들에게는 의미가 없습니다.
유지 된 것은 변수 변환의 개념이며, 벡터의 특정 표현은 특정 작업에 다른 표현보다 더 유용 할 수 있습니다. 직교 좌표 또는 극좌표의 문제를 해결하는 것이 더 합리적인지 여부와 유사합니다.
@Aksakal 님의 질문에 답변 :
좌표 수의 변화로 인해 벡터를 완벽하게 보존 할 수 없습니다. 그러나, 어떤 의미에서는 적어도 유용한 정보는 변형되어 보존 될 수있다. 예를 들어 PCA를 사용하면 좌표를 떨어 뜨릴 수 있으므로 변환을 반전시킬 수는 없지만 차원 축소는 유용 할 수 있습니다. 연속되는 모든 변환이 되돌릴 수없는 경우 두 번째 레이어에서 입력 공간으로 다시 매핑 할 수 있습니다. 그대로, 샘플링을 통해 RBM을 가능하게하는 확률 적 모델 만 보았습니다.
다음은 통계 및 컴퓨터 비전 응용 프로그램을 사용하는 비음 수 텐서 분해, A. Shashua 및 T. Hazan에서 간략하게 편집 된 (상황에 따라) 발췌 한 것입니다 .
임의의 n 차원 문제는 치수를 연결함으로써 2 차원 형태로 표현 될 수있다. 따라서, 예를 들어, 이미지 세트의 음이 아닌 저 순위 분해를 찾는 문제는 이미지가 3D 큐브의 슬라이스를 형성하는 3-NTF (음이 아닌 텐서 인수 분해)이지만, 이미지 (행렬의 열을 형성하는 이미지)를 벡터화하여 NMF (Negative Matrix Factorization) 문제.
이미지 모음의 행렬 표현이 적합하지 않은 데는 두 가지 이유가 있습니다.
- 공간화 (픽셀은 반드시 이웃 할 필요는없고 비슷한 값을 가짐)가 벡터화에서 손실되므로 덜 효율적인 인수 분해가 예상됩니다.
- NMF 분해는 독창적이지 않기 때문에 (로컬 부분의) 생성 모델이 존재하더라도 NMF는 그 방향으로 움직일 필요는 없으며 Chu, M., Diele, F., Plemmons, R., & Ragni, S. "비 음성 행렬 인수 분해의 최적 성, 계산 및 해석"SIAM Journal on Matrix Analysis, 2004. 예를 들어, 이미지 세트의 변하지 않는 부분은 모든 요소에서 고스트를 형성하고 희소성 효과를 오염시키는 경향이 있습니다. NTF는 거의 항상 독특하므로 NTF 체계가 생성 모델을 향해 이동할 것으로 예상되며, 특히 변하지 않는 부분에 영향을받지 않습니다.
[편집] 방금 Peter McCullagh, Tensor Methods in Statistics 의 책을 발견했습니다 .
텐서는 신호 (또는 이미지), 특히 Canonical Polyadic (CP) 텐서 분해 개념과 관련하여 알려지지 않은 혼합물 식별에서 관심 속성을 표시합니다 (예 : 텐서 : 간략한 소개 , P. 코몬, 2014 참조). "블라인드 소스 분리 (BSS)"라는 이름으로 :
텐서 분해는 명시 적 또는 암시 적으로 많은 Blind Source Separation (BSS) 알고리즘의 핵심입니다. 특히, Canonical Polyadic (CP) 텐서 분해는 결정되지 않은 혼합물을 식별하는 데 중심적인 역할을합니다. 몇 가지 유사점에도 불구하고 CP와 SVD (Singular Value Decomposition)는 상당히 다릅니다. 더 일반적으로, 텐서와 매트릭스는이 간단한 소개에서 지적한 것처럼 다른 속성을 즐깁니다.
일부 특이 결과 최근 3 차 텐서에 대해 유도되었다 : 3 차 텐서의 정규 polyadic 분해 (고유성에 제 1 , 제 2 부 ), Domanov I. 등. 2013 년.
텐서 분해는 비 균일 성을 수용하기 위해 분해 계수 (직교성, Vandermonde, Hankel) 및 낮은 순위에 구조를 부여함으로써 스파 스 분해에 종종 연결되는 결절입니다.
불완전한 데이터 분석 및 센서 어레이로부터의 복잡한 측정의 결정에 대한 요구가 증가함에 따라, 텐서는 매트릭스 완성, 잠재 변수 분석 및 소스 분리에 점점 더 많이 사용되고 있습니다.
추가 사항 : 명백히, Canonical Polyadic 분해는 시스템 식별 (블록 구조, 병렬 Wiener-Hammerstein 또는 비선형 상태 공간 모델)의 응용을 통해 선형 형태의 힘의 합으로 동종 다항식의 Waring 분해와 동일합니다.
Kroonenberg, PM Applied Multiway Data Analysis 및 Smilde et al. 다 방향 분석. 화학 과학 응용 프로그램 (Wiley) 내 기사가 흥미로울 수도있다 : Kroonenberg, PM (2014). 다 방향 성분 분석 및 3 방향 대응 분석의 이력. Blasius, J. 및 Greenacre, MJ (Eds.). 데이터의 시각화 및 언어 화 (pp. 77-94). 뉴욕 : 채프먼 & 홀 / CRC. ISBN 9781466589803.
이 참고 문헌은 텐서가 아닌 멀티 웨이 데이터에 대해 설명하지만 동일한 연구 영역을 참조합니다.
기계 학습의 사람들은 수학자 및 의사와 동일한 치료를받는 텐서를 보지 않는 것이 사실입니다. 다음은 이러한 불일치를 설명 할 수있는 문서입니다. Comon P., "Tensors : 간단한 소개" IEEE Sig. Proc. 잡지 , 2014 년 5 월 31 일