«pca» 태그된 질문

주성분 분석 (PCA)은 선형 차원 축소 기법입니다. 다변량 데이터 세트를 가능한 한 많은 정보 (많은 분산)를 유지하는 더 작은 구성 변수 세트로 줄입니다. 주성분이라고하는 이러한 변수는 입력 변수의 선형 조합입니다.


2
회귀의 목적으로 예측 변수의 차원을 줄이는 이점은 무엇입니까?
기존의 회귀 기법에 비해 차원 축소 회귀 (DRR) 또는 감독 차원 축소 (SDR) 기법 의 적용 또는 장점은 무엇입니까 ( 차원 축소 없이)? 이러한 기술 클래스는 회귀 문제에 대한 특징 세트의 저 차원 표현을 찾습니다. 이러한 기술의 예에는 슬라이스 역 회귀, 주 헤 시안 방향, 슬라이스 평균 분산 추정, 커널 …

3
데이터가 포함 된 실용적인 PCA 튜토리얼
인터넷에서 PCA 튜토리얼을 검색하면 수천 개의 결과 (동영상)가 제공됩니다. 많은 튜토리얼이 매우 좋습니다. 그러나 데모에 사용할 수있는 일부 데이터 세트를 사용하여 PCA를 설명하는 실용적인 예를 찾을 수 없습니다. PCA 분석 전후에 플롯하기 쉬운 작은 데이터 세트 (10000s의 데이터가 아닌 10000s의 라인이 아님)를 제공하는 자습서가 필요하며 차이 / 결과를 명확하게 보여줄 …

7
국가 유형을 식별하는 데이터 축소 기술
나는 입문 경제 지리 과정을 가르칩니다. 학생들이 현대 세계 경제에서 발견되는 국가의 종류에 대한 이해와 데이터 축소 기술에 대한 이해를 높이기 위해 다른 종류의 국가 (예 : 고소득 고소득층)의 유형학을 생성하는 과제를 구성하고 싶습니다. 부가 가치는 장수명 기대, 고소득 천연 자원 수출 중반 고수 명 기대, 독일은 첫 번째 유형의 …

1
R의 princomp () 객체에 대한 summary ()와 loading ()의 차이점은 무엇입니까?
예제 코드 : (pc.cr <- princomp(USArrests)) summary(pc.cr) loadings(pc.cr) ## note that blank entries are small but not zero 각기 다른 출력을 얻었고 차이점이 무엇인지 잘 모르겠습니다. 출력은 다음과 같습니다. > summary(pc.cr) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 82.8908472 14.06956001 6.424204055 2.4578367034 Proportion of Variance 0.9655342 0.02781734 0.005799535 …
11 r  pca 

1
R에서 PCA biplot의 기본 변수 화살표
소프트웨어에 의문을 제기하고 편재와 특유성에 대한 변명으로 biplot()R 의 함수 에 대해 묻고 싶습니다 . 더 구체적으로, 중첩 된 기본 빨간색 화살표의 계산 및 플로팅에 대해 묻고 싶습니다. 기본 변수에. [일부 의견을 이해하기 위해, 처음 게시 된 음모에는 관심이 거의없는 문제가 있었으며 이제 지워졌습니다.]
11 r  pca  biplot 

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
치수를 줄이기 위해 t-SNE의 매개 변수를 결정하는 방법은 무엇입니까?
나는 단어 임베딩에 매우 익숙하다. 학습 후 문서가 어떻게 보이는지 시각화하고 싶습니다. 나는 t-SNE가 그것을위한 접근법이라는 것을 읽었다. 포함 크기로 250 크기의 100K 문서가 있습니다. 사용 가능한 여러 패키지도 있습니다. 그러나 t-SNE의 경우 반복 횟수 나 알파 값 또는 퍼펙 스 빌리티 값을 더 잘 알고 있어야합니다. 이러한 하이퍼 파라미터입니까 …

3
첫 번째 주요 컴포넌트는 클래스를 분리하지 않지만 다른 PC는 클래스를 분리합니다. 어떻게 가능합니까?
인스턴스를 두 개의 클래스로 분류하기 위해 감독 기계 학습에 사용되는 더 작은 변수 세트 (주요 구성 요소)를 얻기 위해 17 개의 정량 변수에 대해 PCA를 실행했습니다. PCA 후 PC1은 데이터 분산의 31 %를 차지하고 PC2는 17 %, PC3은 10 %, PC4는 8 %, PC5는 7 %, PC6은 6 %를 차지합니다. …

4
파이썬의 주성분 분석 및 회귀
SAS에서 수행 한 일부 작업을 Python으로 재현하는 방법을 찾으려고합니다. 다중 공선 성이 문제가되는 이 데이터 세트를 사용하여 Python에서 주요 구성 요소 분석을 수행하고 싶습니다. scikit-learn 및 statsmodels를 살펴 보았지만 출력을 가져 와서 SAS와 동일한 결과 구조로 변환하는 방법을 모르겠습니다. 우선, SAS를 사용할 때 SAS가 상관 관계 매트릭스에서 PCA를 수행하는 것처럼 …

2
PCA가 예상의 총 분산을 최대화하는 이유는 무엇입니까?
Christopher Bishop은 자신의 저서 인 Pattern Recognition and Machine Learning 을 통해 데이터가 이전에 선택한 구성 요소에 직교 공간으로 투영 된 후 각 연속 주성분이 투영의 분산을 1 차원으로 최대화한다는 증거를 작성합니다. 다른 사람들도 비슷한 증거를 보여줍니다. 그러나 이는 분산을 최대화한다는 점에서 연속 된 각 구성 요소가 하나의 차원으로 가장 …

3
선형 판별 분석 (LDA)의 스케일링 값을 사용하여 선형 판별에 설명 변수를 그릴 수 있습니까?
주성분 분석을 통해 얻은 Biplot 값을 사용하여 각 주성분을 구성하는 설명 변수를 탐색 할 수 있습니다. 선형 판별 분석에서도 가능합니까? 제공된 데이터는 "Edgar Anderson의 홍채 데이터"( http://en.wikipedia.org/wiki/Iris_flower_data_set )입니다. 홍채 데이터 는 다음과 같습니다 . id SLength SWidth PLength PWidth species 1 5.1 3.5 1.4 .2 setosa 2 4.9 3.0 1.4 …

3
PCA, ICA 및 라플라시안 고유 맵
질문 나는 Laplacian Eigenmaps 방법에 매우 관심이 있습니다. 현재 의료 데이터 세트에서 치수를 줄이는 데 사용하고 있습니다. 그러나 방법을 사용하여 문제가 발생했습니다. 예를 들어, 일부 데이터 (스펙트럼 신호)가 있고 PCA (또는 ICA)를 사용하여 일부 PC (또는 IC)를 가져올 수 있습니다. 문제는 LE를 사용하여 원본 데이터의 유사한 차원 축소 구성 요소를 …
11 pca  ica 

3
분류에서 LDA 대신 PCA를 언제 사용 하시겠습니까?
원리 성분 분석과 다중 판별 분석 (선형 판별 분석)의 차이점에 대한 이 기사 를 읽고 있으며 MDA / LDA가 아닌 PCA를 왜 사용해야하는지 이해하려고 노력하고 있습니다. 설명은 다음과 같이 요약됩니다. PCA에서 대략적으로 말하면 데이터가 가장 널리 퍼져있는 곳 (PCA가 전체 데이터 세트를 하나의 클래스로 취급하기 때문에 클래스 내에서)이 최대 편차를 …

1
PCA 고유 벡터가 아닌 벡터의 "고유 값"(설명 된 분산의 백분율)을 얻는 방법?
PCA가 제공하는 좌표 공간이 아니라 약간 다른 (회전) 벡터 세트에 대해 데이터 세트의 분산 백분율을 얻는 방법을 이해하고 싶습니다. set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), ylim = c(-4, 4)) vv <- eigen(cov(vecs))$vectors ee …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.