«dimensionality-reduction» 태그된 질문

가능한 데이터에 대한 많은 정보를 유지하면서 데이터에 포함 된 많은 변수 또는 차원을 더 적은 수의 차원으로 줄이는 기술을 나타냅니다. 주요 방법으로는 PCA, MDS, Isomap 등이 있습니다. 기술의 두 가지 주요 하위 클래스 : 기능 추출 및 기능 선택.

1
커널 근사에 대한 Nystroem 방법
나는 낮은 순위의 커널 aproximation을위한 Nyström 방법에 대해 읽었습니다. 이 방법은 scikit-learn [1]에서 구현되어 커널 기능 매핑의 낮은 순위에 데이터 샘플을 투사하는 방법으로 사용됩니다. 내가 아는 한, 훈련 세트 과 커널 함수가 주어지면 SVD를 에 적용 하여 커널 매트릭스 의 낮은 순위 근사값을 생성합니다. 및 .{xi}ni=1{xi}i=1n\{x_i\}_{i=1}^nn×nn×nn \times nKKKWWWCCC K=[WK21KT21K22]K=[WK21TK21K22]K = …



8
고차원 데이터 시각화
고차원 공간의 벡터 인 두 클래스의 샘플이 있으며 2D 또는 3D로 플롯하고 싶습니다. 나는 차원 축소 기술에 대해 알고 있지만 matlab, python 또는 미리 작성된 .exe에서 정말 간단하고 사용하기 쉬운 도구가 필요합니다. 또한 2D 표현이 "의미"가 될지 궁금합니다. (예를 들어 두 클래스가 교차하거나 분리 가능한 방법).

3
요인 분석의 가정은 무엇입니까?
FA ( 전통적, 선형) 요인 분석 (FA), 특히 FA 이전 (및 가능하게는 이후에) 가정 을 실제로 이해했는지 확인하고 싶습니다 . 일부 데이터는 초기에 상관 관계가 있어야하며 데이터간에 선형 관계가있을 수 있습니다. 요인 분석을 수행 한 후에는 데이터가 정규 분포 (각 쌍에 대한 이변 량 분포)로 분포되며 요인 (공통 및 특정) …

2
회귀의 목적으로 예측 변수의 차원을 줄이는 이점은 무엇입니까?
기존의 회귀 기법에 비해 차원 축소 회귀 (DRR) 또는 감독 차원 축소 (SDR) 기법 의 적용 또는 장점은 무엇입니까 ( 차원 축소 없이)? 이러한 기술 클래스는 회귀 문제에 대한 특징 세트의 저 차원 표현을 찾습니다. 이러한 기술의 예에는 슬라이스 역 회귀, 주 헤 시안 방향, 슬라이스 평균 분산 추정, 커널 …

7
국가 유형을 식별하는 데이터 축소 기술
나는 입문 경제 지리 과정을 가르칩니다. 학생들이 현대 세계 경제에서 발견되는 국가의 종류에 대한 이해와 데이터 축소 기술에 대한 이해를 높이기 위해 다른 종류의 국가 (예 : 고소득 고소득층)의 유형학을 생성하는 과제를 구성하고 싶습니다. 부가 가치는 장수명 기대, 고소득 천연 자원 수출 중반 고수 명 기대, 독일은 첫 번째 유형의 …

2
치수를 줄이기 위해 t-SNE의 매개 변수를 결정하는 방법은 무엇입니까?
나는 단어 임베딩에 매우 익숙하다. 학습 후 문서가 어떻게 보이는지 시각화하고 싶습니다. 나는 t-SNE가 그것을위한 접근법이라는 것을 읽었다. 포함 크기로 250 크기의 100K 문서가 있습니다. 사용 가능한 여러 패키지도 있습니다. 그러나 t-SNE의 경우 반복 횟수 나 알파 값 또는 퍼펙 스 빌리티 값을 더 잘 알고 있어야합니다. 이러한 하이퍼 파라미터입니까 …

3
첫 번째 주요 컴포넌트는 클래스를 분리하지 않지만 다른 PC는 클래스를 분리합니다. 어떻게 가능합니까?
인스턴스를 두 개의 클래스로 분류하기 위해 감독 기계 학습에 사용되는 더 작은 변수 세트 (주요 구성 요소)를 얻기 위해 17 개의 정량 변수에 대해 PCA를 실행했습니다. PCA 후 PC1은 데이터 분산의 31 %를 차지하고 PC2는 17 %, PC3은 10 %, PC4는 8 %, PC5는 7 %, PC6은 6 %를 차지합니다. …

2
PCA가 예상의 총 분산을 최대화하는 이유는 무엇입니까?
Christopher Bishop은 자신의 저서 인 Pattern Recognition and Machine Learning 을 통해 데이터가 이전에 선택한 구성 요소에 직교 공간으로 투영 된 후 각 연속 주성분이 투영의 분산을 1 차원으로 최대화한다는 증거를 작성합니다. 다른 사람들도 비슷한 증거를 보여줍니다. 그러나 이는 분산을 최대화한다는 점에서 연속 된 각 구성 요소가 하나의 차원으로 가장 …

4
“랜덤 프로젝션”은 엄밀히 프로젝션이 아닌가?
랜덤 투영 알고리즘의 현재 구현에서 그들을 매핑하여 데이터 샘플들의 차원을 감소 에 사용하여 A 투영 행렬 그 항목에서, 예를 들어 적절한 분포 (에서 IID됩니다 ) :RdRd\mathbb R^dRkRk\mathbb R^kd×kd×kd\times kRRRN(0,1)N(0,1)\mathcal N(0,1) x′=1k√xRx′=1kxRx^\prime = \frac{1}{\sqrt k}xR 편리하게도,이 매핑은 대략 쌍 거리를 유지한다는 이론적 증거가 존재합니다. 그러나 최근 저자가 무작위 행렬을 사용한이 매핑이 …

3
분류에서 LDA 대신 PCA를 언제 사용 하시겠습니까?
원리 성분 분석과 다중 판별 분석 (선형 판별 분석)의 차이점에 대한 이 기사 를 읽고 있으며 MDA / LDA가 아닌 PCA를 왜 사용해야하는지 이해하려고 노력하고 있습니다. 설명은 다음과 같이 요약됩니다. PCA에서 대략적으로 말하면 데이터가 가장 널리 퍼져있는 곳 (PCA가 전체 데이터 세트를 하나의 클래스로 취급하기 때문에 클래스 내에서)이 최대 편차를 …

1
대규모 PCA도 가능합니까?
PCA (Principal Component Analysis)의 고전적인 방법은 열의 평균이 0 인 입력 데이터 매트릭스에서 수행하는 것입니다 (PCA는 "분산을 최대화 할 수 있습니다"). 컬럼을 중심으로하여 쉽게 달성 할 수 있습니다. 그러나 입력 행렬이 희소 인 경우 중심 행렬은 더 이상 희소하므로 행렬이 매우 큰 경우 더 이상 메모리에 맞지 않습니다. 스토리지 문제에 …

1
연속 및 이진 변수가 혼합 된 t-SNE
현재 t-SNE를 사용하여 고차원 데이터의 시각화를 조사하고 있습니다. 이진 및 연속 변수가 혼합 된 일부 데이터가 있으며 이진 데이터를 너무 쉽게 클러스터링하는 것처럼 보입니다. 물론 이것은 스케일 된 (0과 1 사이) 데이터에 대해 예상됩니다. 유클리드 거리는 이진 변수 사이에서 항상 가장 크거나 작습니다. t-SNE를 사용하여 혼합 이진 / 연속 데이터 …

1
R 선형 회귀 범주 형 변수 "숨김"값
이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 : a.lm = lm(Y ~ x1 + x2) x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다. summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.