«dimensionality-reduction» 태그된 질문

가능한 데이터에 대한 많은 정보를 유지하면서 데이터에 포함 된 많은 변수 또는 차원을 더 적은 수의 차원으로 줄이는 기술을 나타냅니다. 주요 방법으로는 PCA, MDS, Isomap 등이 있습니다. 기술의 두 가지 주요 하위 클래스 : 기능 추출 및 기능 선택.

5
주요 주성분은 어떻게 종속 변수에 대한 예측력을 유지할 수 있습니까 (또는 더 나은 예측으로 이어질 수 있습니까)?
회귀 실행한다고 가정하십시오 . 성분을 선택하여 왜 모델이 에 대한 예측력을 유지 합니까?k X YY∼XY∼XY \sim XkkkXXXYYY 차원 축소 / 기능 선택 관점에서 가 상위 고유 값을 가진 의 공분산 행렬의 고유 벡터 이면 는 상위 주요 구성 요소입니다 최대 분산으로. 따라서 우리는 의 피처 수를 줄이고 예측력의 대부분을 이해할 …

2
“비선형 차원 축소”에서와 같이“비선형”을 이해하는 방법은 무엇입니까?
선형 차원 축소 방법 (예 : PCA)과 비선형 방법 (예 : Isomap)의 차이점을 이해하려고합니다. 나는이 맥락에서 비선형 성이 무엇을 의미하는지 이해할 수 없다. 나는 읽기 위키 백과 그 이에 비해 PCA (선형 차원 축소 알고리즘)를 사용하여 동일한 데이터 집합을 2 차원으로 줄이면 결과 값이 제대로 구성되지 않습니다. 이것은이 매니 폴드를 …

3
t-SNE를 통해 시각화를위한 차원 축소가 "닫힌"문제로 간주되어야합니까?
차원 축소를위한 sne티티t 알고리즘에 대해 많이 읽었습니다 . MNIST와 같은 "클래식"데이터 세트의 성능에 깊은 인상을 받았습니다. MNIST는 숫자를 명확하게 구분합니다 ( 원본 기사 참조 ). 또한 훈련하는 신경망에서 배운 기능을 시각화하는 데 사용했으며 결과에 매우 만족했습니다. 그래서 내가 이해하는 것처럼 : -sne은 대부분의 데이터 세트에서 좋은 결과를 얻었 으며 Barnes-Hut …

1
차원 수가 경우 데이터에 대해 주요 구성 요소 만있는 이유는 무엇 입니까?
PCA에서,시 치수의 개수 샘플 수 (또는 동일)보다 큰 , 이유는 기껏해야한다는 것이다 비제로 고유 벡터? 다시 말해, 차원 들 사이의 공분산 행렬의 순위 는 이다.N N - 1 d ≥ N N - 1디dd엔NN엔− 1N−1N-1디≥ Nd≥Nd\ge N엔− 1N−1N-1 예 : 샘플은 크기의 벡터화 된 이미지 이지만 이미지 만 있습니다 .N …

2
“환율 감소 회귀”란 무엇입니까?
통계 학습의 요소를 읽었으며 3.7 "여러 결과 축소 및 선택"섹션이 무엇인지 이해할 수 없었습니다. 그것은 RRR (환원 순위 회귀)에 대해 이야기하며, 전제는 계수가 알려지지 않았고 (추정되어야하지만) 전체 순위를 갖지 않는 것으로 알려진 일반 다변량 선형 모델에 대해서만 이해할 수 있습니다. 그것이 내가 이해하는 유일한 것입니다. 나머지 수학은 저 너머에 있습니다. …

1
t-SNE 대 MDS
최근 t-SNE ( t-Distributed Stochastic Neighbor Embedding ) 에 대한 질문을 읽고 MDS ( Multidimensional Scaling )에 대한 질문도 방문했습니다 . 그것들은 종종 유사하게 사용되므로 여기에 별도로 (또는 PCA 와 비교하여 ) 둘 다에 많은 질문이 있음을 보는 것이 좋습니다 . 요컨대 t-SNE와 MDS의 차이점은 무엇입니까? 예. 그들이 탐구하는 데이터 …

3
차원이 샘플 수보다 큰 경우 PCA
나는 분류기에 전달 해야하는 14000 데이터 포인트 (치수)를 포함하는 10 명 (100 샘플)에 대해 10 개의 신호 / 사람이있는 시나리오를 보았습니다. 이 데이터의 차원을 줄이고 싶습니다. PCA가 그렇게하는 것 같습니다. 그러나 샘플 수가 차원 수보다 큰 PCA의 예만 찾을 수있었습니다. SVD를 사용하여 PC를 찾는 PCA 응용 프로그램을 사용하고 있습니다. 100x14000 …

4
혼합 데이터가 유클리드 기반 클러스터링 알고리즘에 문제가되는 이유는 무엇입니까?
대부분의 고전적 군집 및 차원 축소 알고리즘 (계층 적 군집, 주요 구성 요소 분석, k- 평균, 자체 구성 맵 ...)은 숫자 데이터를 위해 특별히 설계되었으며 입력 데이터는 유클리드 공간에서 점으로 표시됩니다. 많은 실제 문제에 혼합 된 데이터가 포함되어 있기 때문에 물론 문제입니다. 예를 들어 버스를 연구하는 경우 높이와 길이 및 …

4
FPCA (Functional Principal Component Analysis) : 모든 것이 무엇입니까?
FPCA (Functional Principal Component Analysis)는 내가 우연히 발견했지만 이해하지 못한 것입니다. 무엇에 관한 것입니까? 2011 년 Shang의 "기능적 주요 구성 요소 분석 조사"를 참조하십시오 . PCA는“차원의 저주”(Bellman 1961)로 인해 기능 데이터를 분석하는 데 심각한 어려움을 겪습니다. "차원의 저주"는 고차원 공간의 데이터 희소성에서 비롯됩니다. PCA의 기하학적 특성이 유효하고 수치 기법이 안정적인 …

1
분류 기술인 LDA가 PCA와 같은 차원 축소 기술로도 사용되는 방법
이 기사 에서 저자는 선형 판별 분석 (LDA)을 주성분 분석 (PCA)에 연결합니다. 제한된 지식으로 LDA가 PCA와 어떻게 유사한 지 따를 수 없습니다. 나는 항상 LDA가 로지스틱 회귀와 유사한 분류 알고리즘의 한 형태라고 생각했습니다. LDA가 PCA와 어떻게 비슷한 지 이해하는 데 도움이 될 것입니다.

5
스트리밍 데이터 용 t-SNE 버전이 있습니까?
t-SNE 와 Barnes-Hut 근사에 대한 나의 이해는 모든 힘 상호 작용이 동시에 계산되고 각 점이 2d (또는 낮은 차원) 맵에서 조정될 수 있도록 모든 데이터 점이 필요하다는 것입니다. 스트리밍 데이터를 효율적으로 처리 할 수있는 t-sne 버전이 있습니까? 따라서 관측치가 한 번에 하나씩 도착하면 2d 맵에서 가장 좋은 위치를 찾아서 새 …

1
t-SNE를 적용하기 전에 데이터를 중앙에 맞추고 스케일링해야합니까?
내 데이터의 일부 기능은 큰 값을 갖는 반면 다른 기능은 훨씬 작은 값을 갖습니다. t-SNE를 적용하기 전에 더 큰 값을 향한 편향을 방지하기 위해 데이터를 중앙에 + 스케일해야합니까? 기본 유클리드 거리 측정법으로 Python의 sklearn.manifold.TSNE 구현을 사용합니다.

4
“차원의 저주”가 실제 데이터에 실제로 존재합니까?
나는 "차원의 저주"가 무엇인지 이해하고 높은 차원의 최적화 문제를 수행했으며 지수 가능성의 도전을 알고 있습니다. 그러나 "차원의 저주"가 대부분의 실제 데이터에 존재하는지 의심합니다. 이미지 나 비디오를 잠시 남겨두고 고객 인구 통계 및 구매 행동 데이터와 같은 데이터에 대해 생각하고 있습니다. 수천 개의 지형지 물로 데이터를 수집 할 수 있지만 지형지 …


2
차원 축소를 클러스터링과 언제 결합합니까?
문서 수준 클러스터링을 수행하려고합니다. 용어 문서 주파수 행렬을 구성했으며 k- 평균을 사용하여 이러한 고차원 벡터를 군집화하려고합니다. 직접 클러스터링 대신, 먼저 LSA (Latent Semantic Analysis) 특이 벡터 분해를 적용하여 U, S, Vt 행렬을 구하고, scree plot을 사용하여 적절한 임계 값을 선택하고 축소 된 행렬에 클러스터링을 적용했습니다 (특히 Vt 그것은 나에게 좋은 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.