«pca» 태그된 질문

주성분 분석 (PCA)은 선형 차원 축소 기법입니다. 다변량 데이터 세트를 가능한 한 많은 정보 (많은 분산)를 유지하는 더 작은 구성 변수 세트로 줄입니다. 주성분이라고하는 이러한 변수는 입력 변수의 선형 조합입니다.


2
주성분 분석을 비정규 데이터에 사용할 수 있습니까?
나는 기계 학습을위한 기계 학습 책에 주어진 예를 읽고 있습니다. 먼저 예를 자세히 설명한 다음 내 질문에 대해 이야기하겠습니다. 예 : 25 년간의 주가 10 년 동안 데이터 세트를 가져옵니다. 25 주가로 PCA를 운영합니다. 주성분을 다우 존스 지수와 비교합니다. PC와 DJI의 유사성이 매우 높습니다! 내가 이해 한 바에 따르면,이 예는 …

1
PCA가 한 쌍의 큰 거리 만 보존한다는 것은 무엇을 의미합니까?
나는 현재 t-SNE 시각화 기술을 읽고 있으며 고차원 데이터를 시각화하기 위해 PCA (Principal Component Analysis)를 사용하는 단점 중 하나는 점 사이의 큰 쌍 거리를 유지한다는 것입니다. 고차원 공간에서 멀리 떨어져있는 의미 점은 저 차원 부분 공간에서도 멀리 떨어져 있지만 다른 모든 쌍방향 거리는 망칠 수 있습니다. 왜 그런지 이해하고 그래픽으로 …

1
대규모 PCA도 가능합니까?
PCA (Principal Component Analysis)의 고전적인 방법은 열의 평균이 0 인 입력 데이터 매트릭스에서 수행하는 것입니다 (PCA는 "분산을 최대화 할 수 있습니다"). 컬럼을 중심으로하여 쉽게 달성 할 수 있습니다. 그러나 입력 행렬이 희소 인 경우 중심 행렬은 더 이상 희소하므로 행렬이 매우 큰 경우 더 이상 메모리에 맞지 않습니다. 스토리지 문제에 …

1
모든 PLS 구성 요소가 함께 원본 데이터의 일부만 설명하는 이유는 무엇입니까?
10 개의 변수로 구성된 데이터 세트가 있습니다. 이 10 개의 변수로 단일 반응 변수를 예측하기 위해 부분 최소 제곱 (PLS)을 실행하고 10 개의 PLS 성분을 추출한 다음 각 성분의 분산을 계산했습니다. 원래 데이터에서 나는 702 인 모든 변수의 분산의 합을 취했습니다. 그런 다음 각 PLS 구성 요소의 분산을이 합계로 나누어 …

1
차원이 관측치보다 큰 경우 공분산 행렬의 고유 분해를 통해 PCA가 여전히 수행됩니까?
D = 100 차원 공간 에 N = 20 개의 샘플이 들어 있는 행렬 X가 있습니다. 이제 Matlab에서 자체 주성분 분석 (PCA)을 코딩하고 싶습니다. 먼저 X 를 X 0으로 떨어 뜨 립니다.20×10020×10020\times100XXXN=20N=20N=20D=100D=100D=100XXXX0X0X_0 나는 관측치보다 더 많은 차원을 가진 시나리오에서 더 이상 공분산 행렬을 고유 분해하지 않는다는 누군가의 코드를 읽었습니다 . …
10 pca 

2
분류 목적으로 데이터를 테스트하기 위해 PCA 적용
최근에 훌륭한 PCA에 대해 배웠으며 scikit-learn documentation에 요약 된 예를 수행했습니다 . 분류 목적으로 새 데이터 포인트에 PCA를 적용하는 방법을 알고 싶습니다. PCA를 2 차원 평면 (x, y 축)으로 시각화 한 후 한 점은 한 분류가되고 다른 한 분류는 분류 할 수 있도록 데이터 점을 구분하기 위해 선을 그릴 수 …

1
고유 벡터에 대한 시각적 설명이 혼동됩니다. 시각적으로 다른 데이터 세트가 동일한 고유 벡터를 가질 수있는 방법은 무엇입니까?
많은 통계 교과서는 공분산 행렬의 고유 벡터가 무엇인지에 대한 직관적 인 그림을 제공합니다. 벡터 u 및 z 는 고유 벡터를 형성한다 (웰, 고유 축). 이것은 말이됩니다. 그러나 나를 혼란스럽게하는 것은 원시 데이터가 아닌 상관 행렬 에서 고유 벡터를 추출한다는 것 입니다. 또한, 매우 다른 원시 데이터 세트는 동일한 상관 행렬을 …

2
구성 요소의 수를 선택하기 위해 PCA 적합의 품질을 평가하기위한 좋은 메트릭은 무엇입니까?
주요 성분 분석 (PCA)의 품질을 평가하기위한 좋은 지표는 무엇입니까? 데이터 세트에서이 알고리즘을 수행했습니다. 저의 목표는 기능의 수를 줄이는 것이 었습니다 (정보는 매우 중복되었습니다). 분산의 백분율이 유지하는 정보의 양을 나타내는 좋은 지표라는 것을 알고 있습니다. 중복 정보를 제거하고 그러한 정보를 '손실'하지 않았는지 확인하는 데 사용할 수있는 다른 정보 메트릭이 있습니까?


1
사람들이 관심있는 영역에 대한 설문 조사에서 나온이 PCA biplot을 해석하는 방법은 무엇입니까?
배경 : 설문 조사에 참여한 수백 명의 참가자에게 선택한 영역에 대한 관심이 어느 정도인지 물었습니다 (1은 "관심이 없음"을 나타내고 5는 "관심이없는"을 나타냄). 그런 다음 PCA를 시도했습니다. 아래 그림은 처음 두 가지 주요 구성 요소에 대한 투영입니다. 색상은 성별에 사용되며 PCA 화살표는 원래 변수 (예 : 관심 분야)입니다. 난 그것을 알아 …

3
유지할 주요 구성 요소 수 선택
나에게 제안 된 한 가지 방법은 스 크리 플롯을보고 올바른 팔 수의 PC를 결정하기 위해 "팔꿈치"를 확인하는 것입니다. 그러나 음모가 명확하지 않은 경우 R에 숫자를 계산하는 계산이 있습니까? fit <- princomp(mydata, cor=TRUE)
10 r  pca 

1
Anova ()와 drop1 ()이 GLMM에 다른 답변을 제공 한 이유는 무엇입니까?
GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


2
요인 분석 (또는 PCA)에서 요인 로딩이 1보다 큰 것은 무엇을 의미합니까?
방금 회전 (promax)을 사용하여 FA를 실행했으며 한 요소에서 1.041의 요소 로딩을 생성 한 항목 (및 패턴 매트릭스를 사용하여 다른 요소에서 -.131, -.119 및 .065의 요소 로딩 ) . 그리고 그것이 무엇을 의미하는지 잘 모르겠습니다 .-1과 1 사이에서만 가능하다고 생각했습니다. 비스듬한 회전 때문입니까? 직교 요소로 하중이 1을 초과 할 수 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.