매니 폴드 가정이 올바른지 증명하는 방법은 무엇입니까?


9

머신 러닝에서 데이터 세트는 부드러운 저 차원 매니 폴드 (매니 폴드 가정)에 있다고 가정하지만 특정 조건이 충족되었다고 가정하면 데이터 세트가 실제로 (대략) 생성된다는 것을 증명할 방법이 있습니까? 저 차원 부드러운 매니 폴드에서?

예를 들어, 데이터 시퀀스 에서 (다른 각도의 얼굴 이미지 시퀀스)와 대응하는 라벨 시퀀스 여기서 (페이스 시퀀스의 각도). 때 가정 및 아주 가까운, 자신의 레이블되어 및 아주 가까운 또한, 우리는 가능성이 상상할 수있는{X1Xn}XiRd{y1yn}y1y2ynXiXi+1yiyi+1{X1Xn}저 차원 매니 폴드에 있습니다. 이것이 사실입니까? 그렇다면 어떻게 증명할 수 있습니까? 또는 매니 폴드 가정이 사실로 입증 될 수 있도록 시퀀스가 ​​충족해야하는 조건은 무엇입니까?

답변:


10

"많은 가정"에 대한 많은 기사를 살펴보면 많은 작가들이 그 의미에 대해 부주의하게 눈에 띄게 나타납니다. 보다 신중한 자료는 미묘하지만 매우 중요한 경고로 정의합니다 . 즉, 데이터 가 저 차원 매니 폴드 에 있거나 근접해 있다는 것입니다.

"또는 가까운"절을 포함하지 않은 사람들조차도 매니 폴드 가정을 근사 소설로 분명히 채택하는데, 수학적 분석을 수행하기에 편리합니다. 왜냐하면 그들의 응용 데이터와 추정 된 매니 폴드 사이의 편차를 고려해야 하기 때문 입니다. 실제로 많은 작가들이 나중에 에 대한 회귀를 고려하는 것과 같은 편차에 대한 명시 적 메커니즘을 소개합니다. 여기서 는 매니 폴드 속박 되지만 에는 무작위 편차. 이것은 튜플 이 가까이 있다고 가정하는 것과 같습니다.yxxMkRd y(xi,yi)몰입 된 차원 매니 폴드에 대한 것은 아니지만 반드시 그런 것은 아니다.k

(x,f(x))Mk×RRd×RRd+1

일부 부드러운 (회귀) 함수에 대한 . 우리는 모두 볼 수 있기 때문에 교란 포인트 단지 어느 가까운 그래프 (a 누워 같은 차원 매니 폴드) 차원 매니 폴드 이 이론에서 중요 할 수있다 "가까이"에서 "의"구별에 대해 왜 그런 sloppiness를 설명하는 데 도움이됩니다.f:RdR(x,y)=(x,f(x)+ε)fkk+1Mk×R

"on"과 "close to"의 차이점은 응용 프로그램에서 매우 중요합니다. "가까이"는 데이터가 매니 폴드에서 벗어날 수 있습니다. 따라서 해당 매니 폴드를 추정하기로 선택한 경우 데이터와 매니 폴드 간의 일반적인 편 차량을 수량화 할 수 있습니다. 전형적인 편차가 적을 때 하나의 장착 된 매니 폴드가 다른 것보다 낫습니다 .

그림

그림은 데이터에 대한 매니 폴드 가정의 두 가지 버전 (큰 파란색 점)을 보여줍니다. 검은 색 매니 폴드는 비교적 단순하지만 (설명 할 매개 변수가 4 개만 필요함) 데이터에 "가까이"만있는 반면, 빨간색 점선 매니 폴드는 데이터에 적합합니다 완벽하지만 복잡합니다 (17 개의 매개 변수 필요).

이러한 모든 문제에서와 같이, 매니 폴드를 설명하는 복잡성과 적합도 (과도한 문제)간에 상충 관계가 있습니다. 그것은 인 항상 일차원 매니 폴드에서 데이터의 한정된 양 맞게 찾을 수있는 경우 도심 (도면에서 붉은 점선 매니 폴드와 같이, 단지 모든 통해 부드러운 곡선을 실행 점 , 어떤 순서로 : 거의 확실하게 자체 교차하지는 않지만 교차 할 경우 교차로 근처의 곡선을 교란시켜 제거하십시오. 반면 극한의 경우 매니 폴드의 제한된 클래스 만 허용되는 경우 (예 : 직선 유클리드 하이퍼 플레인 만 해당) 치수에 관계없이 적합하지 못할 수 있으며 데이터와 피팅 간의 일반적인 편차가 클 수 있습니다.Rd

이것은 매니 폴드 가정을 평가하는 간단하고 실용적인 방법으로 이어진다 : 매니 폴드 가정 으로부터 개발 된 모델 / 예측 자 / 분류 기가 수용 가능하게 잘 작동한다면 그 가정은 정당화되었다. 따라서, 문제에서 추구하는 적절한 조건은 적합도의 일부 관련 척도 가 수용 가능할 정도로 작다는 것이다. (무엇을 측정합니까? 문제에 따라 다르며 손실 기능을 선택하는 것이 가장 중요합니다.)

서로 다른 차원의 매니 폴드 (곡률에 대해 서로 다른 종류의 구속 조건이 있음)가 데이터에 적합 할 수 있으며 보류 된 데이터를 동일하게 예측할 수 있습니다. 특히 " 지저분한 "다양한 매니 폴드대해 "증명 된"것은 없으며 , 특히 크고 거칠고 인간적인 데이터 셋으로 작업 할 때는 없습니다. 우리가 일반적으로 기대할 수있는 것은 그것이 장착 된 매니 폴드가 좋은 모델이라는 것입니다.

좋은 모델 / 예측 자 / 분류 기가 나오지 않으면 매니 폴드 가정이 유효하지 않거나 치수가 너무 작은 매니 폴드를 가정하거나 충분히 열심히 보지 않았습니다.


1
+1 매우 좋습니다. 몇 년에 걸쳐 통계에서 배양 된 원칙적이지만 회의적이고 종종 잠정적 인 사고 방식이 종종 모호하고 빠르며 반짝이는 새로운 이유에 매우 중요한 이유를 다시 한 번 보여줍니다. 기계 학습 및 데이터 과학의 장난감 세계.
Momo

5

모든 유한 한 점의 세트가있는 매니 폴드에 들어갈 수있는 (내가 정리가 무엇인지 기억하지 못할, 정리가 필요 참조하는, 난 그냥 UNI에서이 사실을 기억).

모든 점을 식별하지 않으려면 가능한 가장 낮은 차원은 1입니다.

간단한 예로, N 2d 점이 주어지면 모든 N 점이 해당 다항식에있는 N-1 차 다항식이 있습니다. 따라서 모든 2D 데이터 세트에 대한 1D 매니 폴드가 있습니다. 임의의 차원에 대한 논리는 비슷하다고 생각합니다.

따라서 문제가되지는 않습니다. 실제 연결된 가정은 매니 폴드의 구조 / 단순성, 특히 연결된 리만 (Riemannian) 매니 폴드를 메트릭 공간으로 취급 할 때 특히 중요합니다. 나는이 매니 폴드 호 커스 pocus에 대한 논문을 읽었으며,주의 깊게 읽는다면 꽤 큰 가정이 나온다는 것을 알았습니다!

"친밀 성"에 대한 유도 된 정의가 "데이터 세트의 정보를 보존"한다고 가정 할 때의 가정이지만, 이것이 정보 이론 용어로 공식적으로 정의되지 않았기 때문에 결과적인 정의는 매우 임시적이고 실제로는 매우 큰 가정입니다. 특히 문제는 "친밀감"이 유지되는 것, 즉 두 개의 밀착 점은 근접한 상태로 유지되지만 "farness"는 그렇지 않으므로 두 개의 "멀리"점은 멀지 않은 것으로 보입니다.

결론적으로 데이터 세트가 실제로 자연적으로 유클리드 인 경우 (예 : 시각적 패턴 인식)가 아니라면 머신 러닝에서 이러한 속임수에 매우주의해야 합니다. 나는 이러한 접근 방식이 더 일반적인 문제에 적합하다고 생각하지 않습니다.


감사! 당신의 대답은 문제를 더 잘 이해하는 데 도움이되었습니다. 여기서 언급 한 매니 폴드 가정에 관한 논문을 추천 해 주시겠습니까?
thinkbear

기억하지 못할 어떤 죄송합니다, 구글은 : 도움말을 할 수 있어야한다
samthebest
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.