차원 저주가 일부 모델보다 다른 모델에 영향을 줍니까?


15

치수 저주에 대해 읽은 장소는 주로 kNN 및 선형 모델과 관련하여 설명합니다. 나는 100k 데이터 포인트가 거의없는 데이터 세트의 수천 가지 기능을 사용하여 Kaggle에서 최고 순위를 정기적으로 봅니다. 그들은 주로 Boosted tree와 NN을 사용합니다. 많은 기능이 너무 높아 보이며 차원 저주의 영향을받는다고 생각합니다. 그러나 이러한 모델이 경쟁에서 최고가 되었기 때문에 그렇지 않은 것 같습니다. 원래 질문으로 돌아가서-일부 모델은 다른 모델보다 차원 저주의 영향을 받습니까?

특히 다음 모델에 관심이 있습니다 (이 모델은 내가 알고 있거나 사용하는 모델이기 때문에).

  • 선형 및 로지스틱 회귀
  • 의사 결정 트리 / 임의 숲 / 부스트 트리
  • 신경망
  • SVM
  • kNN
  • k- 평균 군집화

짧은 대답은 확실히 그렇습니다. 그러나 실제로 관심이있는 모델을 원하십니까? CV 커뮤니티가 차원의 저주에 영향을받는 수천 가지 유형의 모델에 대해 말할 수 있다고 확신합니다. 따라서 특정 유형의 모델로 초점을 좁 히면이 질문에 대답하는 데 도움이 될 수 있습니다.

@RustyStatistician-관심있는 몇 가지 모델을 추가했습니다.
Dileep Kumar Patchigolla

나는이 질문에 관심이 있지만 대답하지 않은 채 남아 있습니다. 답을 얻기 위해 어떻게 이것을 가시성으로 가져올 수 있습니까?
Dileep Kumar Patchigolla

답변:


17

일반적으로 차원의 저주는 공간을 통한 검색 문제를 훨씬 더 어렵게 만들고 벡터 공간을 분할하여 "학습"하는 대부분의 알고리즘에 영향을줍니다. 최적화 문제의 차원이 높을수록 최적화하는 공간을 채우는 데 더 많은 데이터가 필요합니다.

일반화 선형 모형

선형 모델은 차원의 저주로 엄청나게 고통받습니다. 선형 모델은 공간을 단일 선형 평면으로 분할합니다. 를 직접 계산하지 않으려는 경우에도

β^=(XX)1Xy
제기 된 문제는 여전히 공선성에 매우 민감하며, 어떤 유형의 정규화없이 "불량 상태"로 간주 될 수 있습니다. 차원이 매우 높은 공간에는 데이터에 적합 할 수있는 평면이 두 개 이상 있으며, 적절한 유형의 정규화가 없으면 모델의 성능이 저하 될 수 있습니다. 특히 정규화가하는 것은 하나의 고유 한 솔루션이 존재하도록하는 것입니다. L1 및 제곱 L2 정규화는 가중치를 최소화하려고 시도하며 가장 작은 가중치를 가진 모델을 가장 "올바른"모델로 선택하는 것으로 해석 할 수 있습니다. 이것은 Occams Razor의 수학적 공식으로 생각할 수 있습니다.

의사 결정 트리
의사 결정 트리는 차원의 저주로 고통받습니다. 의사 결정 트리는 각 노드에서 샘플 공간을 직접 분할합니다. 샘플 공간이 증가함에 따라 데이터 포인트 사이의 거리가 증가하여 "좋은"분할을 찾기가 훨씬 어려워집니다.

랜덤 포레스트
랜덤 포레스트는 의사 결정 트리 모음을 사용하여 예측을합니다. 그러나 문제의 모든 기능을 사용하는 대신 개별 트리는 기능의 하위 집합 만 사용합니다. 이렇게하면 각 트리가 최적화하는 공간이 최소화되고 차원 저주의 문제에 대처할 수 있습니다.


AdaBoost와 같은 Boosted Tree의 Boosting 알고리즘은 차원의 저주를 겪고 정규화를 사용하지 않으면 과도하게 사용됩니다. 게시물 이 AdaBoost가 과적 합하는 경향이 적거나 많기 때문에 깊이가 가지 않습니까? 내가 할 수있는 것보다 더 나은 이유를 설명합니다.

신경망
신경망은 아키텍처, 활성화, 깊이 등에 의존하는 차원의 저주에 영향을 받거나 영향을받지 않는다는 점에서 이상합니다. 따라서 차원의 저주를 반복하기 위해서는 많은 양의 포인트가 필요하다는 문제가 있습니다. 입력 공간을 덮는 치수. 심층 신경망을 해석하는 한 가지 방법은 모든 레이어가 맨 마지막 레이어가 고차원 매니 폴드를 저 차원 매니 폴드로 복잡한 투영을하는 것으로 생각하고 마지막 레이어가 맨 위에 분류되는 것으로 생각하는 것입니다. 예를 들어 마지막 레이어가 소프트 맥스 레이어 인 분류를위한 컨벌루션 네트워크에서 아키텍처를 더 작은 치수로 비선형 프로젝션 한 다음 해당 프로젝션에서 다항 로지스틱 회귀 (소프트 맥스 레이어)를 수행하는 것으로 해석 할 수 있습니다. 따라서 데이터의 압축 된 표현을 통해 차원의 저주를 피할 수 있습니다. 다시 이것은 이것이 하나의 해석인데, 실제로 차원의 저주는 실제로 신경망에 영향을 주지만, 위에서 설명한 모델과 같은 수준은 아닙니다.

SVM
SVM은 과도한 정규화로 인해 일반화 된 선형 모델만큼 과도하게 사용되지 않는 경향이 있습니다. 자세한 내용 이 게시물 SVM, 과적 합, 차원 저주를 확인하십시오 .

K-NN, K- 평균

K- 평균과 K-NN은 모두 L2 제곱 거리 측정을 사용하기 때문에 차원의 저주에 크게 영향을받습니다. 차원의 양이 증가함에 따라 다양한 데이터 포인트 사이의 거리도 증가합니다. 그렇기 때문에 거리가 더 설명적일 수 있도록 더 많은 공간을 차지하기 위해 더 많은 포인트가 필요합니다.

제 답변은 매우 일반적이기 때문에 모델에 대해 구체적으로 물어보십시오. 도움이 되었기를 바랍니다.


안녕 아멘 내가 요청한 모든 모델에 대한 간결한 설명. 선형 모델의 문제는 여전히 명확하지 않습니다. 선형 모델이 k-NN 및 k-Means 모델에 비해 동일한 차원의 성능을 제공합니까? 그리고 공선 성이 선형 모델의 문제라고 말했을 때, 공선 성이 없거나 (최소한) 선형 모델에서는 높은 치수가 문제가 아니라는 것을 의미합니까?
Dileep Kumar Patchigolla

임의의 문제에 대해 선형 모형이 k-nn 또는 k- 평균보다 성능이 좋은지 여부를 정량화하기는 어렵습니다. 귀하의 문제가 선형으로 분리 가능한 경우 내 베팅을 선형 모델에 배치하고 공간이 조금 더 복잡하면 k-nn을 사용합니다. 공선 성은 차원의 저주 문제를 악화시킵니다. 공선 성이 없어도 차원의 저주는 여전히 적용됩니다. K- 평균은 둘 다 이웃 구동되고 일반적으로 동일한 거리 함수를 사용하므로 k-nn과 동일한 정도로 고통을 겪어야합니다. 실제로 COD가 얼마나 나쁜지 정량화하기는 어렵습니다. 도움이 되었기를 바랍니다!
Armen Aghajanyan

차원 저주 (CoD)에 대한 정의는 무엇입니까? 귀하의 답변은 선형 모델이 CoD를 가장 많이 앓고 있다고 제안하는 것 같습니다.
Matifou
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.