일반적으로 차원의 저주는 공간을 통한 검색 문제를 훨씬 더 어렵게 만들고 벡터 공간을 분할하여 "학습"하는 대부분의 알고리즘에 영향을줍니다. 최적화 문제의 차원이 높을수록 최적화하는 공간을 채우는 데 더 많은 데이터가 필요합니다.
일반화 선형 모형
선형 모델은 차원의 저주로 엄청나게 고통받습니다. 선형 모델은 공간을 단일 선형 평면으로 분할합니다. 를 직접 계산하지 않으려는 경우에도
β^=(X′X)−1X′y
제기 된 문제는 여전히 공선성에 매우 민감하며, 어떤 유형의 정규화없이 "불량 상태"로 간주 될 수 있습니다. 차원이 매우 높은 공간에는 데이터에 적합 할 수있는 평면이 두 개 이상 있으며, 적절한 유형의 정규화가 없으면 모델의 성능이 저하 될 수 있습니다. 특히 정규화가하는 것은 하나의 고유 한 솔루션이 존재하도록하는 것입니다. L1 및 제곱 L2 정규화는 가중치를 최소화하려고 시도하며 가장 작은 가중치를 가진 모델을 가장 "올바른"모델로 선택하는 것으로 해석 할 수 있습니다. 이것은 Occams Razor의 수학적 공식으로 생각할 수 있습니다.
의사 결정 트리
의사 결정 트리는 차원의 저주로 고통받습니다. 의사 결정 트리는 각 노드에서 샘플 공간을 직접 분할합니다. 샘플 공간이 증가함에 따라 데이터 포인트 사이의 거리가 증가하여 "좋은"분할을 찾기가 훨씬 어려워집니다.
랜덤 포레스트
랜덤 포레스트는 의사 결정 트리 모음을 사용하여 예측을합니다. 그러나 문제의 모든 기능을 사용하는 대신 개별 트리는 기능의 하위 집합 만 사용합니다. 이렇게하면 각 트리가 최적화하는 공간이 최소화되고 차원 저주의 문제에 대처할 수 있습니다.
AdaBoost와 같은 Boosted Tree의 Boosting 알고리즘은 차원의 저주를 겪고 정규화를 사용하지 않으면 과도하게 사용됩니다. 게시물 이 AdaBoost가 과적 합하는 경향이 적거나 많기 때문에 깊이가 가지 않습니까?
내가 할 수있는 것보다 더 나은 이유를 설명합니다.
신경망
신경망은 아키텍처, 활성화, 깊이 등에 의존하는 차원의 저주에 영향을 받거나 영향을받지 않는다는 점에서 이상합니다. 따라서 차원의 저주를 반복하기 위해서는 많은 양의 포인트가 필요하다는 문제가 있습니다. 입력 공간을 덮는 치수. 심층 신경망을 해석하는 한 가지 방법은 모든 레이어가 맨 마지막 레이어가 고차원 매니 폴드를 저 차원 매니 폴드로 복잡한 투영을하는 것으로 생각하고 마지막 레이어가 맨 위에 분류되는 것으로 생각하는 것입니다. 예를 들어 마지막 레이어가 소프트 맥스 레이어 인 분류를위한 컨벌루션 네트워크에서 아키텍처를 더 작은 치수로 비선형 프로젝션 한 다음 해당 프로젝션에서 다항 로지스틱 회귀 (소프트 맥스 레이어)를 수행하는 것으로 해석 할 수 있습니다. 따라서 데이터의 압축 된 표현을 통해 차원의 저주를 피할 수 있습니다. 다시 이것은 이것이 하나의 해석인데, 실제로 차원의 저주는 실제로 신경망에 영향을 주지만, 위에서 설명한 모델과 같은 수준은 아닙니다.
SVM
SVM은 과도한 정규화로 인해 일반화 된 선형 모델만큼 과도하게 사용되지 않는 경향이 있습니다. 자세한 내용 은 이 게시물 SVM, 과적 합, 차원 저주를 확인하십시오 .
K-NN, K- 평균
K- 평균과 K-NN은 모두 L2 제곱 거리 측정을 사용하기 때문에 차원의 저주에 크게 영향을받습니다. 차원의 양이 증가함에 따라 다양한 데이터 포인트 사이의 거리도 증가합니다. 그렇기 때문에 거리가 더 설명적일 수 있도록 더 많은 공간을 차지하기 위해 더 많은 포인트가 필요합니다.
제 답변은 매우 일반적이기 때문에 모델에 대해 구체적으로 물어보십시오. 도움이 되었기를 바랍니다.