확장 가능한 치수 축소


9

기능의 수를 일정하게 고려하면 Barnes-Hut t-SNEO(nlogn), 임의 예측 및 PCA는의 복잡성을O(n) 매우 큰 데이터 세트에 "적절한"가격을 제공합니다.

반면에 다차원 스케일링에 의존하는 메소드 는O(n2) 복잡성.

다른 치수 축소 기술이 있습니까 (첫 번째를 보는 것처럼 사소한 기술을 제외하고) k 물론 열의 복잡도가 O(nlogn) ?

답변:


5

흥미로운 옵션은 신경 기반 차원 축소를 탐색하는 것입니다. 치수 감소를 위해 가장 일반적으로 사용되는 네트워크 유형 인 자동 인코더는 다음과 같은 비용으로 교육 할 수 있습니다.O(in), 어디 i훈련 반복을 나타냅니다 (훈련 데이터와 무관 한 하이퍼 파라미터). 따라서 훈련 복잡성은O(n).

Hinton과 Salakhutdinov [1]의 2006 년 세미나를 살펴보면서 시작할 수 있습니다. 그 이후로 상황이 많이 발전했습니다. 이제 Variational Autoencoders [2]를 통해 대부분의 관심을 얻었지만 기본 개념 (출력 계층에서 입력을 재구성하는 네트워크) 사이에 병목 현상 계층이 유지됩니다. PCA 및 RP와 달리 자동 인코더는 비선형 차원 축소를 수행합니다. 또한, t-SNE와 달리 오토 인코더는 전체 모델을 재교육 할 필요없이 보이지 않는 샘플을 변환 할 수 있습니다.

실용적인 측면 에서이 게시물을 살펴볼 것을 권장합니다.이 게시물 에서는 멋진 라이브러리 Keras를 사용하여 다양한 유형의 자동 인코더를 구현하는 방법에 대해 자세히 설명합니다.

[1] Hinton, GE, & Salakhutdinov, RR (2006). 신경망으로 데이터의 차원을 줄입니다. 과학, 313 (5786), 504-507.

[2] Kingma, DP, & Welling, M. (2013). 변형 베이 자동 인코딩. arXiv 프리 프린트 arXiv : 1312.6114.


1
기술적 으로이 특정 접근법을 사용하여 t-SNE를 사용하여 새로운 샘플에 대한 모델을 재교육 할 필요가 없습니다 . lvdmaaten.github.io/publications/papers/AISTATS_2009.pdf
bibliolytic

확실한. 저자는 또한 다변량 회귀 분석을 훈련시켜 잠재적 인 접근 방법으로서 입력 데이터 샘플로부터 맵 위치를 예측하도록 제안했다. 이 논문에서 저자는 t-SNE 손실을 직접 최소화하기 위해 신경망을 훈련시키는 것을 언급합니다. 그러나 두 경우 모두 데이터 공간을 결과 공간에 매핑하기 위해 명시 적 모델 또는 함수를 정의해야하므로 임베딩을 배우기에는 충분히 강력해야하지만 (과도한 레이어 / 뉴런) 지나치게 적합하지 않아야합니다. ... 표준 t-SNE의 일부 유용성을 희생합니다.
다니엘 로페스

거기에 어떤 의견, 나는 당신이 t-SNE는 차원 감소를위한 손실로 사용할 수 있습니다로보고, 당신의 대답에서와는 대비 autoencoders와 t-SNE에 조금 부정확 생각하지
bibliolytic

이제 다시 읽었지만 질문 : 실제로 신경망은 O(n)그들이 실제로 수렴한다고 보장되지 않는 것을 보았습니까? Big-O 표기법은 최악의 경우입니다.
bibliolytic

네트워크를 훈련시킬 때 t-SNE 손실을 계산 한 이후 답변에 포함하고 싶지 않았습니다. O(m2) 어디에서 m미니 배치 크기입니다.
다니엘 로페스

0

이미 언급 한 자동 인코더 외에도 임의의 투영 또는 임의의 부분 공간 방법으로 Johnson-Lindenstrauss의 명예를 악용 할 수 있습니다 . 랜덤 프로젝션은O(kdN)N 차원의 샘플 수 dk 목표 치수 cf [1].

약간의 인터넷 검색을 통해 특히 스파 스 데이터 세트에 대한 최신 결과를 얻을 수 있습니다.

[1] 차원 축소의 임의 투영 : 이미지 및 텍스트 데이터에 대한 응용 프로그램 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.