고차원 데이터 : 알아야 할 유용한 기술은 무엇입니까?


14

차원의 다양한 저주 로 인해 많은 일반적인 예측 기술의 정확도와 속도가 높은 차원의 데이터에서 저하됩니다. 고차원 데이터를 효과적으로 처리하는 데 도움이되는 가장 유용한 기술 / 트릭 / 휴리스틱은 무엇입니까? 예를 들어

  • 특정 통계 / 모델링 방법이 고차원 데이터 세트에서 잘 수행됩니까?
  • 특정 (거리의 대체 개념을 정의하는) 특정 커널 또는 도트 제품의 대체 개념을 정의하는 커널 을 사용하여 고차원 데이터에 대한 예측 모델의 성능을 향상시킬 수 있습니까 ?
  • 고차원 데이터에 대한 차원 축소의 가장 유용한 기술은 무엇입니까?

답변:


10

이것은 매우 광범위한 질문이며 단일 답변으로 포괄적 으로 다루기가 불가능하다고 생각합니다 . 따라서 관련 답변 및 / 또는 리소스에 대한 지침을 제공하는 것이 더 유리할 것이라고 생각합니다. 이것은 다음 정보와 생각을 제공함으로써 내가 할 것입니다.

먼저 Microsoft Research의 Burges (2009)의 차원 축소 에 대한 우수하고 포괄적 인 자습서를 언급해야합니다 . 그는 논문 전체에서 데이터의 고차원적인 측면 을 자주 다루고 있습니다. 차원 축소차원 축소를 참조하는이 작업 은 문제에 대한 이론적 소개를 제시하고 , 투영법매니 폴드 모델링 방법 으로 구성된 차원 축소 방법 의 분류법 을 제안하며 , 각 범주의 여러 방법에 대한 개요 를 제공합니다 .

은 " 투영 검토 추구"방법이 포함 독립 성분 분석 (ICA) , 주성분 분석 (PCA) 와 같은 그 변형 커널 PCA확률 PCA , 정규 상관 분석 (CCA)커널 CCA의 변이 판별 분석 선형 (LDA ) , 커널 차원 축소 (KDR) 및 기타 사항. 검토 된 매니 폴드 방법에는 다차원 스케일링 (MDS)랜드 마크 MDS 변형, Isomap , 로컬 선형 임베딩이 포함됩니다.Laplacian 고유 맵스펙트럼 클러스터링 과 같은 그래픽 방법 . 온라인 (위의 링크) 또는 오프라인 (참조)으로 원본 출판물에 액세스 할 수없는 경우에 검토 된 방법의 대부분을 여기에 나열합니다 .

위에서 언급 한 작업에 적용한 "포괄적"이라는 용어에 대한 경고 가 있습니다. 실제로는 포괄적이지만, 차원 축소에 대한 접근 방식 중 일부는 논문에서 특히 논의되지 않았기 때문에 관찰 할 수없는 (잠재적) 변수 에 중점을 두기 때문에 상대적 입니다. 그러나 그 중 일부는 차원 축소에 관한 책인 다른 출처를 참조하여 언급되었습니다.

이제 관련 또는 관련 답변을 참조하여 해당 주제의 몇 가지 좁은 측면을 간략하게 설명하겠습니다. 에 관해서 가장 가까운 이웃 (NN) 타입은 접근 높은 차원 데이터로, 내 대답을 참조하십시오 여기에 (나는 특히 내 목록의 용지 # 4를 확인하는 것이 좋습니다). 차원저주의 효과 중 하나는 고차원 데이터가 종종 희박 하다는 것 입니다. 이 사실을 고려할 때 희소 및 고차원 데이터에 대한 회귀PCA 에 대한 여기여기의 관련 답변 이 도움이 될 수 있다고 생각합니다.

참고 문헌

CJC Burges (2010). 차원 축소 : 가이드 투어. 기계 학습의 기초 및 동향, 2 (4), 275-365. 도이 : 10.1561 / 2200000002


0

Aleksander는 매우 포괄적 인 답변을했지만 매우 광범위하게 고소 된 몇 가지가 있습니다.

차원 축소에는 PCA가 사용되지만 선형 변환 만 수행하고 비선형 차원 축소에는 매니 폴드 학습이 필요합니다.

커널을 사용하여 낮은 차원의 데이터를 높은 차원으로 투영 할 수 있습니다. 분류자가 현재 차원에서 선형 분리 평면을 찾을 수 없지만 더 높은 차원에서 클래스를 분리하는 선형 초평면을 찾을 수있을 때 일반적으로 이렇게합니다. 커널은 SVM에서 널리 사용됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.