«pca» 태그된 질문

주성분 분석 (PCA)은 선형 차원 축소 기법입니다. 다변량 데이터 세트를 가능한 한 많은 정보 (많은 분산)를 유지하는 더 작은 구성 변수 세트로 줄입니다. 주성분이라고하는 이러한 변수는 입력 변수의 선형 조합입니다.

1
Daniel Wilks (2011)는 왜 주요 구성 요소 회귀 분석이 "편향 될 것"이라고 말합니까?
에서 대기 과학 통계 방법 예측 인자 중 매우 강한 intercorrelations (제 3 판, 페이지 559-560)이있는 경우, 다니엘 윌크스 노트는 다중 선형 회귀 분석 문제가 발생할 수 : 다중 선형 회귀 분석에서 발생할 수있는 병리학은 강력한 상호 상관 관계가있는 예측 변수 세트가 불안정한 회귀 관계 계산을 초래할 수 있다는 것입니다. …
13 regression  pca  bias 

1
감독 차원 축소
15K 레이블이 지정된 샘플 (10 그룹)로 구성된 데이터 세트가 있습니다. 레이블의 지식을 고려하여 차원 축소를 2 차원으로 적용하고 싶습니다. PCA와 같은 "표준"감독되지 않은 차원 축소 기법을 사용할 때 산점도는 알려진 레이블과 관련이없는 것 같습니다. 찾고있는 이름이 있습니까? 솔루션에 대한 몇 가지 참조를 읽고 싶습니다.

1
PCA가 항상 좌표축을 회전시키는 경우 "회전 된"및 "회전되지 않은"주요 구성 요소는 무엇입니까?
내가 이해하는 한, 주요 구성 요소는 좌표축을 회전하여 최대 분산 방향에 정렬하여 얻습니다. 그럼에도 불구하고, 나는 "회전하지 않은 주성분"에 대해 계속 읽고 있으며, 통계 소프트웨어 (SAS)는 회전하지 않은 주성분뿐만 아니라 varimax로 회전 된 주성분을 제공합니다. 여기서 혼란스러워합니다. 주성분을 계산할 때 축이 이미 회전되어 있습니다. 그렇다면 또 다른 회전이 필요한 이유는 …


1
PCA 로딩을 해석하는 방법?
PCA에 대해 읽으면서 다음과 같은 설명을 들었습니다. 각 데이터 포인트가 수학 시험, 물리 시험, 독해 시험 및 어휘 시험에서 단일 학생의 점수를 나타내는 데이터 세트가 있다고 가정하십시오. 데이터의 변동성의 90 %를 포착하고 그로드를 해석하는 처음 두 가지 주요 구성 요소를 찾습니다. 첫 번째 주요 구성 요소는 전반적인 학업 능력을 나타내고 …
13 pca 

3
Lindsay Smith의 튜토리얼을 사용하여 R에서 PCA를 단계별로 구현
Lindsay I Smith 의 훌륭한 PCA 튜토리얼을 통해 R에서 일하고 있으며 마지막 단계에 갇혀 있습니다. 아래의 R 스크립트는 원래 데이터가 (이 경우 단수) Principal Component에서 재구성되는 단계 (p.19)로 이동하여 PCA1 축을 따라 직선 플롯을 생성합니다 2 차원 만 있고, 2 차원은 의도적으로 떨어집니다). d = data.frame(x=c(2.5,0.5,2.2,1.9,3.1,2.3,2.0,1.0,1.5,1.1), y=c(2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9)) # mean-adjusted values …
13 r  pca 

2
그룹을 분리하는 PCA 구성 요소 선택
PCA를 사용하여 다변량 데이터를 진단하는 데 자주 사용했습니다 (수십만 개의 변수와 수십 또는 수백 개의 샘플이있는 omics 데이터). 데이터는 종종 일부 그룹을 정의하는 몇 가지 범주 형 독립 변수를 사용한 실험에서 나온 것이므로 관심 그룹 사이의 분리를 나타내는 요소를 찾기 전에 종종 몇 가지 구성 요소를 거쳐야합니다. 나는 그러한 차별적 …

3
R에서 가변 최대 회전 주성분을 계산하는 방법은 무엇입니까?
25 개의 변수에서 PCA를 실행하고을 사용하여 상위 7 개의 PC를 선택했습니다 prcomp. prc <- prcomp(pollutions, center=T, scale=T, retx=T) 그런 다음 해당 구성 요소에서 varimax 회전을 수행했습니다. varimax7 <- varimax(prc$rotation[,1:7]) 이제 varimax는 PCA 회전 데이터를 (varimax 객체의 일부가 아니기 때문에-로딩 행렬과 회전 행렬 만) varimax 회전하고 싶습니다. 이 작업을 수행하려면 회전 …
13 r  pca  factor-rotation 

2
랜덤 행렬의 경우 SVD가 전혀 설명하지 않아야합니까? 내가 도대체 ​​뭘 잘못하고있는 겁니까?
전적으로 임의의 데이터로 구성된 2 차원 행렬을 구성하면 PCA 및 SVD 구성 요소가 본질적으로 아무 것도 설명하지 않을 것입니다. 대신 첫 번째 SVD 열이 데이터의 75 %를 설명하는 것처럼 보입니다. 이것이 어떻게 가능할까요? 내가 도대체 ​​뭘 잘못하고있는 겁니까? 줄거리는 다음과 같습니다. R 코드는 다음과 같습니다. set.seed(1) rm(list=ls()) m <- matrix(runif(10000,min=0,max=25), …
13 r  pca  svd 

3
PCA의 구성 요소가 실제로 분산의 백분율을 나타 냅니까? 100 % 이상으로 합산 할 수 있습니까?
O'Reilly의 "해커를위한 기계 학습"에 따르면 각 주요 구성 요소는 분산의 백분율을 나타냅니다. 아래 페이지의 관련 부분을 인용했습니다 (8 장, 207 페이지). 다른 전문가와 이야기하면서, 그들은 그것이 백분율이라고 동의했습니다. 그러나 24 개 구성 요소의 합계는 133.2095 %입니다. 어떻게 그렇게 될수 있니? 우리가 PCA를 사용할 수 있다고 확신 한 후에 R에서 어떻게 …
13 r  pca 

2
데이터 축소에 대한 반복 측정에서 PCA를 수행 할 수 있습니까?
나는 두 가지 상황에서 각각 87 마리의 동물에 대해 3 번의 실험을했습니다 (일부 누락 된 데이터; 누락 된 데이터 없음 = 64 마리의 동물). 내가 (그들에게 전화하는 상황에서 행동을 설명하는 2 ~ 3 복합 행동 점수를 개발하려는 있도록 맥락에서, 나는 많은 특정 조치를 (입력 시간, 쉼터로 돌아 횟수 등)이 C1, …

5
다른 길이의 시계열에 대한 SVD 차원 축소
특이 값 감소 기술로 특이 값 분해를 사용하고 있습니다. N차원이 주어진 벡터는 D상관 관계가없는 차원으로 변환 된 공간의 특징을 나타내며,이 공간의 고유 벡터에있는 데이터 정보의 대부분을 중요도가 감소하는 순서로 요약합니다. 이제이 절차를 시계열 데이터에 적용하려고합니다. 문제는 모든 시퀀스의 길이가 같지 않기 때문에 실제로 num-by-dim행렬을 만들고 SVD를 적용 할 수 없다는 …

1
GBM 패키지와 GBM을 사용하는 Caret
을 사용하여 모델 튜닝을 수행 caret했지만 gbm패키지를 사용하여 모델을 다시 실행했습니다 . caret패키지가 사용 gbm하고 출력이 동일해야한다는 것을 이해합니다 . 그러나 data(iris)RMSE와 R ^ 2를 평가 지표로 사용하면 약 5 %의 모델에서 불일치가 발생합니다. 부분 종속성 플롯을 사용 하기 위해 최적의 모델 성능을 찾고 caret싶지만 다시 실행 하고 싶습니다 gbm. …

1
연속 변수와 이진 변수의 혼합을 기반으로 한 PCA 및 구성 요소 점수
혼합 유형 변수 (연속 및 이진)로 구성된 데이터 세트에 PCA를 적용하고 싶습니다. 절차를 설명하기 위해 아래의 R에 최소한의 재현 가능한 예를 붙여 넣습니다. # Generate synthetic dataset set.seed(12345) n <- 100 x1 <- rnorm(n) x2 <- runif(n, -2, 2) x3 <- x1 + x2 + rnorm(n) x4 <- rbinom(n, 1, …
13 r  pca 

1
커널 PCA 용 커널을 선택하는 방법은 무엇입니까?
커널 PCA (주성분 분석)가 최종 데이터 출력에서 ​​어떤 커널을 선택하여 데이터를 양호하게 분리 할 수있는 방법은 무엇이며 커널의 매개 변수를 최적화하는 방법은 무엇입니까? 가능한 경우 Layman의 용어를 높이 평가할 것이며 그러한 방법을 설명하는 논문 링크도 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.