«pca» 태그된 질문

주성분 분석 (PCA)은 선형 차원 축소 기법입니다. 다변량 데이터 세트를 가능한 한 많은 정보 (많은 분산)를 유지하는 더 작은 구성 변수 세트로 줄입니다. 주성분이라고하는 이러한 변수는 입력 변수의 선형 조합입니다.

1
논문은“주요 구성 요소의 수를 결정하기위한 몬테 카를로 시뮬레이션”을 언급합니다. 어떻게 작동합니까?
10304x236 크기의 매트릭스에서 PCA를 수행 한 MRI 데이터에 대해 Matlab 분석을 수행하고 있습니다. 여기서 10304는 복셀 수 (픽셀로 생각)이고 236은 시점 수입니다. PCA는 236 개의 고유 값과 관련 계수를 제공합니다. 이건 다 괜찮아 그러나 보유 할 구성 요소 수를 결정해야 할 때 복제중인 용지는 다음과 같이 말합니다 (전체 용지의 짧은 …

1
주요 구성 요소 점수가 서로 관련이없는 이유는 무엇입니까?
수포 ㅏA\mathbf A평균 중심 데이터의 행렬입니다. 매트릭스S =cov( A )S=cov(A)\mathbf S=\text{cov}(\mathbf A) 이다 m × mm×mm\times m, 가지고있다 미디엄mm 고유 한 고유 값 및 고유 벡터 에스1s1\mathbf s_1, 에스2s2\mathbf s_2 ... 에스미디엄sm\mathbf s_m직교하는. 그만큼 나는ii-주요 구성 요소 (일부 사람들은 "점수"라고 함)는 벡터입니다. 지나는= A에스나는zi=Asi\mathbf z_i = \mathbf A\mathbf s_i. 즉, …

2
작은 샘플 집합의 부울 기능에 대한 PCA와 스펙트럼 클러스터링의 차이점
50 샘플의 데이터 세트가 있습니다. 각 샘플은 11 개의 상관 관계가있는 부울 피처로 구성됩니다. 2D 플롯에서 이러한 샘플을 시각화하고 50 개의 샘플 중 클러스터 / 그룹이 있는지 조사하고 싶습니다. 나는 다음 두 가지 접근법을 시도했다. (a) 50x11 매트릭스에서 PCA를 실행하고 처음 두 주요 구성 요소를 선택하십시오. 데이터를 2D 플롯에 투영하고 …

4
R의 이산 시간 이벤트 기록 (생존) 모델
R에 이산 시간 모델을 맞추려고하지만 어떻게 해야할지 모르겠습니다. 종속 변수를 각 시간 관찰마다 하나씩 다른 행 glm으로 구성하고 logit 또는 cloglog 링크와 함께 함수를 사용할 수 있다는 것을 읽었습니다. 이런 의미에서, 나는 세 개의 열이 있습니다 : ID, Event(각 시간 경과시 1 또는 0) 및 Time Elapsed(관측 시작부터 ) 그리고 …
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

3
PCA를 통한 마할 라 노비스 거리
나는 행렬을 가지고 있는데, 여기서 는 유전자의 수이고 은 환자의 수입니다. 그러한 데이터로 작업 한 사람은 가 항상 보다 크다는 것을 알고 있습니다. 기능 선택을 사용하여 를 더 합리적인 수로 줄 였지만 는 여전히 보다 큽니다 .n × pn×pn\times p피pp엔nn피pp엔nn피pp피pp엔nn 나는 그들의 유전자 프로필을 기반으로 환자의 유사성을 계산하고 싶습니다; 유클리드 …

2
다각형의 공분산 행렬을 찾는 방법은 무엇입니까?
좌표 집합 정의 된 다각형이 있고 질량 중심이 합니다. 다각형 경계를 사용하여 다각형을 균일 한 분포 로 취급 할 수 있습니다 . (x1,y1)...(xn,yn)(x1,y1)...(xn,yn)(x_1,y_1)...(x_n,y_n)(0,0)(0,0)(0,0) 다각형 의 공분산 행렬 을 찾는 방법을 따르고 있습니다. 다각형의 공분산 행렬이 면적 의 두 번째 모멘트 와 밀접한 관련이 있다고 생각 하지만, 동등한 지 여부는 확실하지 …

1
아이들은 어떻게 GWAS 데이터 세트의 PCA 프로젝션에서 부모를 어떻게 함께 모을 수 있습니까?
에서 각 좌표 iid로 10,000 차원 공간에서 20 개의 임의의 점을 취합니다 . 10 쌍 ( "커플")으로 나누고 각 쌍의 평균 ( "자식")을 데이터 세트에 추가하십시오. 그런 다음 결과 30 점에서 PCA를 수행하고 PC1 대 PC2를 플로팅합니다.엔( 0 , 1 )N(0,1)\mathcal N(0,1) 놀라운 일이 일어납니다. 각 "가족"은 서로 가까이있는 삼중점을 …

3
n, p가 둘 다 크면 PCA가 너무 느림 : 대안?
문제 설정 2D로 시각화하려고하는 높은 차원 (4096)의 데이터 포인트 (이미지)가 있습니다. 이를 위해 Karpathy의 다음 예제 코드 와 비슷한 방식으로 t-sne을 사용하고 있습니다. scikit 배우기 문서는 먼저 데이터의 차원을 낮추기 위해 PCA를 사용하는 것이 좋습니다 : 피처 수가 매우 많은 경우 차원 수를 적당한 양 (예 : 50)으로 줄이려면 다른 …

2
아이스크림 판매 대 온도의이 PCA 플롯 이해
나는 온도 대 아이스크림 판매에 대한 더미 데이터를 가져 와서 K Means (n ​​clusters = 2)를 사용하여 두 범주 (총 더미)를 구별하여 분류했습니다. 이제이 데이터에 대한 주요 구성 요소 분석을 수행하고 있으며 목표는 내가 본 것을 이해하는 것입니다. PCA의 목표는 차원을 줄이고 (이 경우는 아님) 요소의 분산을 보여주는 것입니다. 그러나 …

2
확장 가능한 치수 축소
기능의 수를 일정하게 고려하면 Barnes-Hut t-SNE 는O ( n 로그n )O(nlog⁡n)O(n\log n), 임의 예측 및 PCA는의 복잡성을O ( n )O(n)O(n) 매우 큰 데이터 세트에 "적절한"가격을 제공합니다. 반면에 다차원 스케일링에 의존하는 메소드 는O (엔2)O(n2)O(n^2) 복잡성. 다른 치수 축소 기술이 있습니까 (첫 번째를 보는 것처럼 사소한 기술을 제외하고) 케이kk 물론 열의 복잡도가 …

1
PCA 플롯의 쐐기 모양은 무엇을 나타 냅니까?
이들에는 텍스트 분류 autoencoders 종이 힌튼 및 Salakhutdinov (PCA 밀접한 관련이있다) 2 차원 LSA 제조 플롯을 보여 주었다 : . 전혀 다른 약간 높은 차원의 데이터에 PCA를 적용하면 비슷한 모양의 플롯을 얻었습니다 (이 경우를 제외하고 내부 구조가 있는지 정말로 알고 싶었습니다). 임의의 데이터를 PCA에 공급하면 디스크 모양의 얼룩을 얻으므로이 쐐기 …

3
PCA 구성 요소를 회전하여 각 구성 요소의 분산을 균등화
데이터 세트에서 PCA를 수행하고 마지막 몇 대의 PC를 버림으로써 데이터 세트의 차원과 노이즈를 줄이려고합니다. 그런 다음 나머지 PC에서 일부 기계 학습 알고리즘을 사용하고 싶습니다. 따라서 알고리즘이 더 잘 작동하도록 PC의 분산을 균등화하여 데이터를 정규화하고 싶습니다. 간단한 방법 중 하나는 단순히 분산을 단위 값으로 정규화하는 것입니다. 그러나 첫 번째 PC에는 다음 …

3
PCA 결과에 패턴이 없음을 어떻게 알 수 있습니까?
19 개의 변수로 구성된 1000 개 이상의 샘플 데이터 세트가 있습니다. 내 목표는 다른 18 개의 변수 (이진 및 연속)를 기반으로 이진 변수를 예측하는 것입니다. 나는 예측 변수 중 6 개가 이진 반응과 관련되어 있다고 확신하지만 데이터 세트를 추가로 분석하고 누락 될 수있는 다른 연관 또는 구조를 찾고 싶습니다. 이를 …
9 pca 


2
주요 성분 분석 결과의 결론
다음과 같이 수행 된 주요 구성 요소 분석 결과를 이해하려고합니다. > head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 …
9 r  pca  interpretation 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.