통계 및 빅 데이터 dimensionality-reduction

1

나는 낮은 순위의 커널 aproximation을위한 Nyström 방법에 대해 읽었습니다. 이 방법은 scikit-learn [1]에서 구현되어 커널 기능 매핑의 낮은 순위에 데이터 샘플을 투사하는 방법으로 사용됩니다. 내가 아는 한, 훈련 세트 과 커널 함수가 주어지면 SVD를 에 적용 하여 커널 매트릭스 의 낮은 순위 근사값을 생성합니다. 및 .{xi}ni=1{xi}i=1n\{x_i\}_{i=1}^nn×nn×nn \times nKKKWWWCCC K=[WK21KT21K22]K=[WK21TK21K22]K = …

12 scikit-learn dimensionality-reduction kernel-trick nonlinear

4

오토 인코더와 t-SNE의 차이점은 무엇입니까?

내가 아는 한, 자동 엔코더와 t-SNE는 비선형 차원 축소에 사용됩니다. 차이점은 무엇이며 왜 다른 것을 사용해야합니까?

12 neural-networks deep-learning dimensionality-reduction autoencoders tsne

3

모든 변수가 대략 직교 인 데이터 세트의 차원 축소에 값이 있습니까?

차원이 대략 직교 (상관 관계가 0 인) 차원 데이터 세트 가 있다고 가정하십시오 .NNNNNNN 다음과 같은 측면에서 유틸리티가 있습니까? 심상 표현 (분류기 효율을 위해) 또는 다른 기준 데이터의 차원 축소를 수행하기 위해?

11 pca dimensionality-reduction

8

고차원 데이터 시각화

고차원 공간의 벡터 인 두 클래스의 샘플이 있으며 2D 또는 3D로 플롯하고 싶습니다. 나는 차원 축소 기술에 대해 알고 있지만 matlab, python 또는 미리 작성된 .exe에서 정말 간단하고 사용하기 쉬운 도구가 필요합니다. 또한 2D 표현이 "의미"가 될지 궁금합니다. (예를 들어 두 클래스가 교차하거나 분리 가능한 방법).

11 data-visualization matlab python dimensionality-reduction

3

요인 분석의 가정은 무엇입니까?

FA ( 전통적, 선형) 요인 분석 (FA), 특히 FA 이전 (및 가능하게는 이후에) 가정 을 실제로 이해했는지 확인하고 싶습니다 . 일부 데이터는 초기에 상관 관계가 있어야하며 데이터간에 선형 관계가있을 수 있습니다. 요인 분석을 수행 한 후에는 데이터가 정규 분포 (각 쌍에 대한 이변 량 분포)로 분포되며 요인 (공통 및 특정) …

11 correlation factor-analysis assumptions dimensionality-reduction

2

회귀의 목적으로 예측 변수의 차원을 줄이는 이점은 무엇입니까?

기존의 회귀 기법에 비해 차원 축소 회귀 (DRR) 또는 감독 차원 축소 (SDR) 기법 의 적용 또는 장점은 무엇입니까 ( 차원 축소 없이)? 이러한 기술 클래스는 회귀 문제에 대한 특징 세트의 저 차원 표현을 찾습니다. 이러한 기술의 예에는 슬라이스 역 회귀, 주 헤 시안 방향, 슬라이스 평균 분산 추정, 커널 …

11 regression machine-learning pca dimensionality-reduction

7

국가 유형을 식별하는 데이터 축소 기술

나는 입문 경제 지리 과정을 가르칩니다. 학생들이 현대 세계 경제에서 발견되는 국가의 종류에 대한 이해와 데이터 축소 기술에 대한 이해를 높이기 위해 다른 종류의 국가 (예 : 고소득 고소득층)의 유형학을 생성하는 과제를 구성하고 싶습니다. 부가 가치는 장수명 기대, 고소득 천연 자원 수출 중반 고수 명 기대, 독일은 첫 번째 유형의 …

11 pca factor-analysis dimensionality-reduction

2

치수를 줄이기 위해 t-SNE의 매개 변수를 결정하는 방법은 무엇입니까?

나는 단어 임베딩에 매우 익숙하다. 학습 후 문서가 어떻게 보이는지 시각화하고 싶습니다. 나는 t-SNE가 그것을위한 접근법이라는 것을 읽었다. 포함 크기로 250 크기의 100K 문서가 있습니다. 사용 가능한 여러 패키지도 있습니다. 그러나 t-SNE의 경우 반복 횟수 나 알파 값 또는 퍼펙 스 빌리티 값을 더 잘 알고 있어야합니다. 이러한 하이퍼 파라미터입니까 …

11 pca dimensionality-reduction word2vec word-embeddings tsne

3

첫 번째 주요 컴포넌트는 클래스를 분리하지 않지만 다른 PC는 클래스를 분리합니다. 어떻게 가능합니까?

인스턴스를 두 개의 클래스로 분류하기 위해 감독 기계 학습에 사용되는 더 작은 변수 세트 (주요 구성 요소)를 얻기 위해 17 개의 정량 변수에 대해 PCA를 실행했습니다. PCA 후 PC1은 데이터 분산의 31 %를 차지하고 PC2는 17 %, PC3은 10 %, PC4는 8 %, PC5는 7 %, PC6은 6 %를 차지합니다. …

11 machine-learning classification pca dimensionality-reduction

2

PCA가 예상의 총 분산을 최대화하는 이유는 무엇입니까?

Christopher Bishop은 자신의 저서 인 Pattern Recognition and Machine Learning 을 통해 데이터가 이전에 선택한 구성 요소에 직교 공간으로 투영 된 후 각 연속 주성분이 투영의 분산을 1 차원으로 최대화한다는 증거를 작성합니다. 다른 사람들도 비슷한 증거를 보여줍니다. 그러나 이는 분산을 최대화한다는 점에서 연속 된 각 구성 요소가 하나의 차원으로 가장 …

11 machine-learning variance pca dimensionality-reduction eigenvalues

4

“랜덤 프로젝션”은 엄밀히 프로젝션이 아닌가?

랜덤 투영 알고리즘의 현재 구현에서 그들을 매핑하여 데이터 샘플들의 차원을 감소 에 사용하여 A 투영 행렬 그 항목에서, 예를 들어 적절한 분포 (에서 IID됩니다 ) :RdRd\mathbb R^dRkRk\mathbb R^kd×kd×kd\times kRRRN(0,1)N(0,1)\mathcal N(0,1) x′=1k√xRx′=1kxRx^\prime = \frac{1}{\sqrt k}xR 편리하게도,이 매핑은 대략 쌍 거리를 유지한다는 이론적 증거가 존재합니다. 그러나 최근 저자가 무작위 행렬을 사용한이 매핑이 …

10 terminology dimensionality-reduction linear-algebra random-projection

3

분류에서 LDA 대신 PCA를 언제 사용 하시겠습니까?

원리 성분 분석과 다중 판별 분석 (선형 판별 분석)의 차이점에 대한 이 기사 를 읽고 있으며 MDA / LDA가 아닌 PCA를 왜 사용해야하는지 이해하려고 노력하고 있습니다. 설명은 다음과 같이 요약됩니다. PCA에서 대략적으로 말하면 데이터가 가장 널리 퍼져있는 곳 (PCA가 전체 데이터 세트를 하나의 클래스로 취급하기 때문에 클래스 내에서)이 최대 편차를 …

10 classification pca dimensionality-reduction discriminant-analysis

1

대규모 PCA도 가능합니까?

PCA (Principal Component Analysis)의 고전적인 방법은 열의 평균이 0 인 입력 데이터 매트릭스에서 수행하는 것입니다 (PCA는 "분산을 최대화 할 수 있습니다"). 컬럼을 중심으로하여 쉽게 달성 할 수 있습니다. 그러나 입력 행렬이 희소 인 경우 중심 행렬은 더 이상 희소하므로 행렬이 매우 큰 경우 더 이상 메모리에 맞지 않습니다. 스토리지 문제에 …

10 pca algorithms dimensionality-reduction large-data sparse

1

연속 및 이진 변수가 혼합 된 t-SNE

현재 t-SNE를 사용하여 고차원 데이터의 시각화를 조사하고 있습니다. 이진 및 연속 변수가 혼합 된 일부 데이터가 있으며 이진 데이터를 너무 쉽게 클러스터링하는 것처럼 보입니다. 물론 이것은 스케일 된 (0과 1 사이) 데이터에 대해 예상됩니다. 유클리드 거리는 이진 변수 사이에서 항상 가장 크거나 작습니다. t-SNE를 사용하여 혼합 이진 / 연속 데이터 …

10 python dimensionality-reduction unsupervised-learning tsne mixed-type-data

1

R 선형 회귀 범주 형 변수 "숨김"값

이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 : a.lm = lm(Y ~ x1 + x2) x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다. summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

«dimensionality-reduction» 태그된 질문