매니 폴드에 대한 통계의 그래픽 직관


12

이 게시물에 , 당신은 문을 읽을 수 있습니다 :

모델은 일반적으로 유한 치수 매니 폴드에서 점 표시됩니다 θ.

미분 기하학과 통계 마이클 K 머레이, 존 W 라이스 이러한 개념을 읽을 심지어 수학 표현식을 무시 산문에 설명되어 있습니다. 불행히도, 삽화가 거의 없습니다. MathOverflow에 대한 이 게시물도 마찬가지입니다.

주제에 대한보다 공식적인 이해를위한지도 또는 동기 부여 역할을하는 시각적 표현에 대한 도움을 요청하고 싶습니다.

매니 폴드의 요점은 무엇입니까? 이 온라인 find의 인용문 은 데이터 포인트 또는 분포 매개 변수 일 수 있음을 나타냅니다.

매니 폴드 및 정보 형상에 대한 통계는 차등 형상이 통계를 충족시키는 두 가지 방법입니다. 매니 폴드에 대한 통계에서는 매니 폴드에있는 데이터이고, 정보 구조에서는 데이터가 Rn 에 있지만 매개 변수화 된 확률 밀도 함수 계열은 매니 폴드로 처리됩니다. 이러한 매니 폴드를 통계 매니 폴드라고합니다.


나는 탄젠트 공간이 설명에서 영감을이 그림 그린 여기를 :

여기에 이미지 설명을 입력하십시오

[ 편집 대해 아래 주석 반영 :C 매니 폴드, 일] 의 탄젠트 공간 모든 가능한 유도체 ( "속도")의 집합 점으로 인 과 연관된을 통과하는 매니 폴드에서 가능한 모든 곡선이것은 가로 지르는 모든 곡선 즉 컴포지션 로 정의 된 까지의 맵 집합으로 볼 수 있습니다 . 함께 매니 폴드의 표면에 실제 선에서 곡선 (기능을 나타내는p M (ψ: R M )p. p, C (t) R , ( f ψ ) (t)ψ M p,f,fp(M)pM(ψ:RM)p.p,C(t)R,(fψ)(t)ψM) 포인트 를 통과하고 위의 다이어그램에서 빨간색으로 표시됩니다. 및 테스트 기능을 나타내는. "iso- "흰색 등고선은 실제 선의 동일한 점에 매핑되고 점 둘러 쌉니다 .p,f,fp

동등성 (또는 통계에 적용되는 동등성 중 하나)은 여기 에서 설명 되며 다음 인용문 과 관련이 있습니다 .

지수 가족을위한 매개 변수 공간이 포함되어있는 경우 차원 개방 세트를, 다음은 전체 순위라고합니다.s

전체 순위가 아닌 지수 패밀리는 일반적으로 곡선 지수 패밀리라고합니다. 일반적으로 매개 변수 공간은 보다 작은 의 곡선입니다.Rss.

이것은 다음과 같이 플롯을 해석하는 것처럼 보입니다. 분포 매개 변수 (이 경우 지수 분포 패밀리의 경우)는 매니 폴드에 있습니다. 의 데이터 포인트 는 순위가 부족한 비선형 최적화 문제인 경우 함수를 통해 매니 폴드의 라인에 매핑됩니다 . 이것은 물리학에서의 속도 계산과 평행을 이룰 것입니다 : "iso-f"선의 그라디언트를 따라 함수 의 미분을 찾으십시오 (오렌지의 방향 미분) :함수 은 분포 매개 변수의 선택을 곡선 로 최적화하는 역할을합니다. ψ : RM f ( f ψ ) ' ( t ) . f : MR ψ fRψ:RMf(fψ)(t).f:MRψ매니 폴드 에서 등고선을 따라 이동합니다 .f


추가 된 스터프 :

참고로, 이러한 개념은 ML의 비선형 차원 축소 와 즉시 관련이 없다고 생각 합니다 . 그들은 정보 기하학 과 더 유사하게 보인다 . 인용문은 다음과 같습니다.

중요하게, 매니 폴드에 대한 통계는 매니 폴드 학습과 매우 다릅니다. 후자는 기계 학습의 한 지점으로 값 데이터 에서 잠재 매니 폴드를 학습하는 것이 목표입니다 . 일반적으로, 찾는 잠복 매니 폴드의 치수는 미만 입니다. 잠재 매니 폴드는 사용되는 특정 방법에 따라 선형 또는 비선형 일 수있다. nRnn


와 매니 폴드에 대한 통계에서 다음과 같은 정보 모델링 모양 변형에 응용 프로그램 에 의해 오렌 Freifeld :

여기에 이미지 설명을 입력하십시오

반면 일반적으로 비선형이며, 우리로 나타낸 접선 공간을 연결할 수있는 의 모든 포인트에, . 은 치수가 의 치수와 동일한 벡터 공간입니다 . 의 기원 에있다 . 만약 이 어떤 유클리드 공간에 내장 된다면 , 우리는 과 같이 아핀 부분 공간으로 생각할 수 있다 : 1) 에서 과 접촉 하고 ; 2) 적어도 국부적으로, 은 그것의 한쪽에 완전히 놓여 있습니다. TpM의 요소를 탄젠트 벡터라고합니다.T p M p M T p M M T p M p M T p M M p MMTpMpMTpMMTpMpMTpMMpM

[...] 매니 폴드에서 통계 모델은 접선 공간으로 표현되는 경우가 많습니다.

[...]

[우리는 두 개의 데이터 세트를 의 포인트로 구성한다] :M

DL={p1,,pNL}M ;

DS={q1,,qNS}M

과 가 에서 두 개의 알려지지 않은 점을 나타내 하자 . 두 데이터 세트가 다음 통계 규칙을 충족한다고 가정합니다.µLµSM

{logμL(p1),,logμL(pNL)}TμLM,logμL(pi)i.i.dN(0,ΣL) {logμS(q1),,logμS(qNS)}TμSM,logμS(qi)i.i.dN(0,ΣS)

[...]

즉, (접선 공간 (접선 벡터로) 표현 AT) ,는 제로 평균 가우시안 공분산와 IID의 샘플 세트로 볼 수있다 . 마찬가지로, 가 의 탄젠트 공간에서 표현 되면 공분산이 제로 평균 가우시안의 iid 샘플 세트로 볼 수 있습니다 . 이것은 유클리드 사건을 일반화합니다.DLMμLΣLDSμSΣS

같은 참고 자료에서 필자가 요구하는이 그래픽 개념과 가장 가까운 (실제로 만) 온라인 예제를 찾습니다.

여기에 이미지 설명을 입력하십시오

이것은 데이터가 탄젠트 벡터로 표현 된 매니 폴드의 표면에 있고 매개 변수는 데카르트 평면에 매핑 될 것입니까?


1
여기서 무엇을하려고합니까? 매니 폴드를 그리시겠습니까? 그들 대부분은 그리기에 너무 지루합니다. 예를 들어 가우스 분포를 사용해보십시오.
Aksakal

일반적으로 매개 변수 공간은 벡터 공간으로 생각합니다 (예 : . 파라 메트릭 "매니 폴드"를 생각한다면, 가장 먼저 떠오르는 것은 "제한 시스템"입니다 (예 : . 그렇지 않으면 왜 공간이 "완전하지"않습니까? ( "매니 폴드"인 서브셋을 정의하는 것은 무엇입니까?)θRnf(θ)=0
GeoMatt22

2
잘만되면 @whuber가 그가 채팅에서하고있는 댓글에 대해 자세히 설명 할 것입니다.
gung-Monica Monica 복원

1
편집 한 질문에 대한 짧은 대답은 "아니요"입니다. 탄젠트 공간은 매니 폴드의 모든 부드러운 경로의 속도를 나타냅니다. 통계에서 주요 역할은 가능성을 최대화하는 데 있으며, 여기서 매니 폴드는 유한하게 매개 변수화 된 패밀리를 설명합니다. "매니 폴드 학습"에서 매니 폴드는 데이터에 대한 로컬 근사값으로 사용됩니다. 선형 회귀 분석에서 "열 공간"의 곡선 버전입니다. 여기서 접선 공간은 주변 유클리드 공간 내에 내장 됩니다. 로컬로, 데이터의 "방향"을 설명하고 일반 번들은 "오류"방향을 제공합니다.
whuber

1
예 : 코탄젠트 공간 에서 주변 기능의 세균 유도로 정의 될 수있다 . 에서의 탄젠트 공간 (따라서!)은 단순히 이중입니다. 과 획득 토폴로지 -이고, 두 접하는 공간의 개념 인정 및 상의 좌표 차트를 이용하여 - "근처"인 . 이는 탄젠트 공간 정의로의 정의 (및 시각화 문제)를 줄입니다 . 이것은 에서 시작하는 모든 벡터의 집합입니다 . 매니 폴드의 미적분학에서 SpivakTpMpppTMTMTpMTqMMTxRnx, 이러한 종류의 명확한 기본 정의를 제공합니다.
whuber

답변:


3

확률 분포 군은 분포의 모수 에 해당하는 고유 좌표를 가진 매니 폴드의 점으로 분석 할 수 있습니다 . 아이디어는 잘못된 메트릭으로 표현을 피하는 것입니다. 단 변량 가우스 는 아래 그림의 오른쪽 에서와 같이 Euclidean 매니 폴드에 점으로 표시 될 수 있습니다. 축의 평균 과 축의 SD를 사용하여 (분산을 플로팅하는 경우 양의 반) :(Θ)N(μ,σ2),R2xy

여기에 이미지 설명을 입력하십시오

그러나 항등 행렬 (유클리드 거리)은 개별 와의 차이 (비 유사성)를 측정하지 못합니다 . 평균이 고정 된 경우에도 분산이 적은 가우시안 곡선의 경우 겹치지 않는 영역 (진한 파란색)이 더 큽니다. 실제로 통계적 매니 폴드에 대해 "이해"하는 유일한 리만 통계는 Fisher 정보 지표 입니다.pdf

에서는 피셔 정보 거리 : 기하학적 판독 코스타 SI 산토스 SA 및 Strapasson JE는 유사도 활용 가우스 분포 피셔 정보 행렬 및 메트릭 벨트 라미-Pointcaré 디스크 모델 밀폐 식을 유도하기 위해.

쌍곡선 의 "north"원뿔은 비 유클리드 매니 폴드가되며, 여기서 각 점은 평균 및 표준 편차 (매개 변수 공간)와 가장 짧은 거리에 해당합니다. 예를 들어 와 는 측지선 곡선으로, 적도면에 과포화 선으로 투영되고 (차트 맵) , 메트릭 텐서를 통해 사이의 거리를 측정 할 수 있습니다. - Fisher 정보 지표 :x2+y2x2=1pdfs,PQ,pdfsgμν(Θ)eμeν

D(P(x;θ1),Q(x;θ2))=minθ(t)|θ(0)=θ1,θ(1)=θ201(dθdt)I(θ)dθdtdt

I(θ)=1σ2[1002]

여기에 이미지 설명을 입력하십시오

쿨백 - 라이 블러 발산은 밀접한 형상 결여와 연관된 메트릭이라도 관련된다.

Fisher 정보 매트릭스는 Shannon 엔트로피 의 Hessian으로 해석 될 수 있습니다 .

gij(θ)=E[2logp(x;θ)θiθj]=2H(p)θiθj

H(p)=p(x;θ)logp(x;θ)dx.

이 예제는 개념적으로보다 일반적인 입체 지구지도 와 유사 합니다 .

ML 다차원 임베딩 또는 매니 폴드 학습은 여기서 다루지 않습니다.


1

확률을 지오메트리에 연결하는 방법은 여러 가지가 있습니다. 타원형 분포 (예 : 가우시안)에 대해 들어봤을 것입니다 . 용어 자체는 지오메트리 링크를 의미 하며 공분산 행렬 을 그릴 때 분명합니다 . 매니 폴드를 사용하면 가능한 모든 매개 변수 값을 좌표계에 배치하기 만하면됩니다. 예를 들어 가우스 매니 폴드의 크기는 입니다. 에 값을 가질 수 있지만 양의 분산 있습니다. 따라서 가우스 매니 폴드는 전체 공간 의 절반이 됩니다. 그렇게 재미 있지 않은 μ R σ 2 > 0 R 2μ,σ2μRσ2>0R2


"매니 폴드"가 포함 공간보다 크기 작다고 생각한 것 같습니다 . 그래서 halfspace는 계산하지 않을까요?
GeoMatt22

Gaussian을 사용하면 매니 폴드도 아닙니다. 제약 조건이 필요하기 때문에 일종의 평면 또는 선이됩니다
Aksakal

난 당신이 "의미합니까 ... 당신의 대답의 의미를 이해하려고 노력하고 형상 링크를?" 또한 방금 MathOverflow에서 관련 게시물을 찾았습니다 .
Antoni Parellada

3
Fisher-Rao와 같은 적절한 측정 항목으로 더욱 흥미로워지고 Poincare 쌍곡선 절반 자리가됩니다. en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model
mic

2
(1) 파라 메트릭 패밀리를 설명하는 매니 폴드는 고유 매니 폴드입니다. 벡터 공간에 포함 할 필요는 없습니다. (2) 그것들은 단지 구별 할 수있는 매니 폴드 이상의 것입니다. Fisher Information 은 그것들을 기하학적 거리로 연구 할 수있게 해주는 지역 거리 인 Riemannian 메트릭을 부여합니다 . 이것은 " 공간의 절반 "을 곡면으로 만듭니다. R2
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.