«pca» 태그된 질문

주성분 분석 (PCA)은 선형 차원 축소 기법입니다. 다변량 데이터 세트를 가능한 한 많은 정보 (많은 분산)를 유지하는 더 작은 구성 변수 세트로 줄입니다. 주성분이라고하는 이러한 변수는 입력 변수의 선형 조합입니다.

2
주요 성분 분석에서 이중 점 해석
나는이 훌륭한 튜토리얼 : R을 사용한 통계 분석 핸드북을 보았습니다. 13 장. 주요 구성 요소 분석 : R 언어로 PCA를 수행하는 방법에 대한 올림픽 헵타 슬론 그림 13.3의 해석을 이해하지 못합니다. 그래서 첫 번째 고유 벡터와 두 번째 고유 벡터를 플로팅하고 있습니다. 그게 무슨 뜻이야? 첫 번째 고유 벡터에 해당하는 …

1
센터링은 PCA (SVD 및 고유 분해)에서 어떻게 차이를 만들어 줍니까?
PCA의 데이터 중심화 (또는 의미가없는)는 어떤 차이가 있습니까? 수학이 더 쉬워 지거나 첫 번째 PC가 변수의 수단에 의해 지배되는 것을 막는다 고 들었지만 아직 개념을 제대로 파악할 수 없었습니다. 예를 들어, 여기서 가장 좋은 대답 은 회귀 및 PCA에서 데이터를 중심에 어떻게 차단을 제거합니까? 중심이 포인트 클라우드의 주축이 아니라 원점을 …
30 r  pca  svd  eigenvalues  centering 

5
머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법
예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
요인 분석에서 최상의 요인 추출 방법
SPSS는 여러 가지 요인 추출 방법을 제공합니다. 주요 구성 요소 (요인 분석이 아님) 비가 중 최소 제곱 일반화 된 최소 제곱 최대 가능성 주축 알파 팩토링 이미지 팩토링 요인 분석 (주요 성분 분석, PCA)이 아닌 첫 번째 방법을 무시합니다.이 중 어떤 방법이 가장 적합합니까? 다른 방법의 상대적인 장점은 무엇입니까? 그리고 …


3
PCA를 통해 직교 회귀 (총 최소 제곱)를 수행하는 방법은 무엇입니까?
나는 항상 lm()R 에서 에 선형 회귀를 수행하기 위해 사용 합니다. 이 함수는 와 같은 계수 반환합니다x β y = β x .와이와이y엑스엑스xββ\beta와이= βx .와이=β엑스.y = \beta x. 오늘 나는 최소 최소 제곱 에 대해 배웠고 그 princomp()기능 (주성분 분석, PCA)을 사용하여 그것을 수행 할 수 있습니다. 나에게 좋을 것입니다 …

4
Andrew Ng가 PCA를 수행하기 위해 공분산 행렬의 EIG가 아닌 SVD를 선호하는 이유는 무엇입니까?
Andrew Ng의 Coursera 코스 및 기타 자료에서 PCA를 공부하고 있습니다. 스탠포드 NLP 과정에서 cs224n의 첫 번째 과제 와 Andrew Ng 의 강의 비디오에서 공분산 행렬의 고유 벡터 분해 대신 특이 값 분해를 수행하며 Ng는 SVD가 고유 분해보다 수치 적으로 더 안정적이라고 말합니다. PCA의 경우 (m,n)크기의 공분산 행렬이 아닌 크기 의 …

1
순서 또는 이진 데이터에 대한 요인 분석 또는 PCA가 있습니까?
주요 성분 분석 (PCA), 탐색 적 요인 분석 (EFA) 및 확인 적 요인 분석 (CFA)을 완료하여 리 커트 척도 (5 단계 응답 : 없음, 약간, 약간, ..)로 데이터를 연속으로 처리했습니다. 변하기 쉬운. 그런 다음 Lavaan을 사용하여 변수를 범주 형으로 정의하는 CFA를 반복했습니다. 데이터가 본질적인 경우 어떤 유형의 분석이 적합하고 PCA …

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
R을 사용한 치수 축소에서 t-SNE 대 PCA의 문제점은 무엇입니까?
336x256 부동 소수점 수 (336 박테리아 게놈 (열) x 256 정규화 테트라 뉴클레오티드 빈도 (행)의 행렬을 가지고 있습니다 (예 : 모든 열은 1을 더합니다). 원리 성분 분석을 사용하여 분석을 실행할 때 좋은 결과를 얻습니다. 먼저 데이터에서 kmeans 클러스터를 계산 한 다음 PCA를 실행하고 2D 및 3D의 초기 kmeans 클러스터링을 기반으로 …
27 r  pca  tsne 

4
주요 목표가 소수의 구성 요소 만 추정하는 경우 PCA 또는 FA의 최소 표본 크기는?
관측치와 변수 (치수) 가있는 데이터 세트가 있고 일반적으로 이 작고 ( ) 가 작은 것 ( )에서 훨씬 더 큰 것 ( ).엔nn피피p엔엔nN = 12 - 16엔=12−16n=12-16피피pP = 4 - 10피=4−10p = 4-10P = 30 - 50피=30−50p= 30-50 주성분 분석 (PCA) 또는 요인 분석 (FA)을 실행하려면 이 보다 훨씬 커야한다는 …

5
PCA가 분류기의 결과를 악화시키는 원인은 무엇입니까?
교차 유효성 검사를 수행하는 분류 기가 있으며, 기능의 최적 조합을 찾기 위해 앞으로 선택하는 백여 가지 기능이 있습니다. 또한 PCA로 동일한 실험을 실행하는 것과 비교할 수 있는데, 여기서 잠재적 인 특징을 취하고 SVD를 적용하며 원래 신호를 새로운 좌표 공간으로 변환하고 앞으로 선택 프로세스에서 상위 기능을 사용합니다 .kkk 신호는 원래의 기능보다 …



7
행렬 열 사이의 선형 의존성 테스트
결정 요인이 0 인 보안 수익의 상관 관계 행렬이 있습니다. (이는 샘플 상관 행렬과 해당 공분산 행렬이 이론적으로 양의 명확한 값이어야하기 때문에 약간 놀라운 일입니다.) 내 가설은 적어도 하나의 보안이 다른 유가 증권에 선형 적으로 의존한다는 것입니다. R에 선형 의존성을 위해 각 열의 행렬을 순차적으로 테스트하는 함수가 있습니까? 예를 들어, …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.