"많은 가정"에 대한 많은 기사를 살펴보면 많은 작가들이 그 의미에 대해 부주의하게 눈에 띄게 나타납니다. 보다 신중한 자료는 미묘하지만 매우 중요한 경고로 정의합니다 . 즉, 데이터 가 저 차원 매니 폴드 에 있거나 근접해 있다는 것입니다.
"또는 가까운"절을 포함하지 않은 사람들조차도 매니 폴드 가정을 근사 소설로 분명히 채택하는데, 수학적 분석을 수행하기에 편리합니다. 왜냐하면 그들의 응용 은 데이터와 추정 된 매니 폴드 사이의 편차를 고려해야 하기 때문 입니다. 실제로 많은 작가들이 나중에 에 대한 회귀를 고려하는 것과 같은 편차에 대한 명시 적 메커니즘을 소개합니다. 여기서 는 매니 폴드 에 속박 되지만 에는 무작위 편차. 이것은 튜플 이 가까이 있다고 가정하는 것과 같습니다.yxxMk⊂Rd y(xi,yi)몰입 된 차원 매니 폴드에 대한 것은 아니지만 반드시 그런 것은 아니다.k
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
일부 부드러운 (회귀) 함수에 대한 . 우리는 모두 볼 수 있기 때문에 교란 포인트 단지 어느 가까운 그래프 (a 누워 같은 차원 매니 폴드) 에 차원 매니 폴드 이 이론에서 중요 할 수있다 "가까이"에서 "의"구별에 대해 왜 그런 sloppiness를 설명하는 데 도움이됩니다.f:Rd→R(x,y)=(x,f(x)+ε)fkk+1Mk×R
"on"과 "close to"의 차이점은 응용 프로그램에서 매우 중요합니다. "가까이"는 데이터가 매니 폴드에서 벗어날 수 있습니다. 따라서 해당 매니 폴드를 추정하기로 선택한 경우 데이터와 매니 폴드 간의 일반적인 편 차량을 수량화 할 수 있습니다. 전형적인 편차가 적을 때 하나의 장착 된 매니 폴드가 다른 것보다 낫습니다 .
그림은 데이터에 대한 매니 폴드 가정의 두 가지 버전 (큰 파란색 점)을 보여줍니다. 검은 색 매니 폴드는 비교적 단순하지만 (설명 할 매개 변수가 4 개만 필요함) 데이터에 "가까이"만있는 반면, 빨간색 점선 매니 폴드는 데이터에 적합합니다 완벽하지만 복잡합니다 (17 개의 매개 변수 필요).
이러한 모든 문제에서와 같이, 매니 폴드를 설명하는 복잡성과 적합도 (과도한 문제)간에 상충 관계가 있습니다. 그것은 인 항상 일차원 매니 폴드에서 데이터의 한정된 양 맞게 찾을 수있는 경우 도심 (도면에서 붉은 점선 매니 폴드와 같이, 단지 모든 통해 부드러운 곡선을 실행 점 , 어떤 순서로 : 거의 확실하게 자체 교차하지는 않지만 교차 할 경우 교차로 근처의 곡선을 교란시켜 제거하십시오. 반면 극한의 경우 매니 폴드의 제한된 클래스 만 허용되는 경우 (예 : 직선 유클리드 하이퍼 플레인 만 해당) 치수에 관계없이 적합하지 못할 수 있으며 데이터와 피팅 간의 일반적인 편차가 클 수 있습니다.Rd
이것은 매니 폴드 가정을 평가하는 간단하고 실용적인 방법으로 이어진다 : 매니 폴드 가정 으로부터 개발 된 모델 / 예측 자 / 분류 기가 수용 가능하게 잘 작동한다면 그 가정은 정당화되었다. 따라서, 문제에서 추구하는 적절한 조건은 적합도의 일부 관련 척도 가 수용 가능할 정도로 작다는 것이다. (무엇을 측정합니까? 문제에 따라 다르며 손실 기능을 선택하는 것이 가장 중요합니다.)
서로 다른 차원의 매니 폴드 (곡률에 대해 서로 다른 종류의 구속 조건이 있음)가 데이터에 적합 할 수 있으며 보류 된 데이터를 동일하게 예측할 수 있습니다. 특히 " 지저분한 "다양한 매니 폴드 에 대해 "증명 된"것은 없으며 , 특히 크고 거칠고 인간적인 데이터 셋으로 작업 할 때는 없습니다. 우리가 일반적으로 기대할 수있는 것은 그것이 장착 된 매니 폴드가 좋은 모델이라는 것입니다.
좋은 모델 / 예측 자 / 분류 기가 나오지 않으면 매니 폴드 가정이 유효하지 않거나 치수가 너무 작은 매니 폴드를 가정하거나 충분히 열심히 보지 않았습니다.