«dimensionality-reduction» 태그된 질문

가능한 데이터에 대한 많은 정보를 유지하면서 데이터에 포함 된 많은 변수 또는 차원을 더 적은 수의 차원으로 줄이는 기술을 나타냅니다. 주요 방법으로는 PCA, MDS, Isomap 등이 있습니다. 기술의 두 가지 주요 하위 클래스 : 기능 추출 및 기능 선택.

1
부분 최소 제곱, 감소 된 순위 회귀 및 주요 구성 요소 회귀 간의 연결은 무엇입니까?
감소 된 순위 회귀 및 주성분 회귀는 부분 최소 제곱의 특별한 경우입니까? 이 튜토리얼 (6 페이지의 "목표 비교")에서는 X 또는 Y를 투영하지 않고 부분 최소 제곱을 수행 할 때 (즉, "부분이 아님") 해당 등급이 감소하거나 주성분 회귀가 감소한다고 설명합니다. 이 SAS 설명서 페이지 , "감소 된 순위 회귀"및 "방법 간의 …

4
어떤 변수가 어떤 PCA 구성 요소를 설명합니까?
이 데이터를 사용하여 : head(USArrests) nrow(USArrests) 다음과 같이 PCA를 수행 할 수 있습니다. plot(USArrests) otherPCA <- princomp(USArrests) 나는 새로운 구성 요소를 얻을 수 있습니다 otherPCA$scores 구성 요소가 설명하는 분산 비율 summary(otherPCA) 그러나 어떤 변수가 주로 어떤 주성분으로 설명되는지 알고 싶다면 어떻게해야합니까? 그리고 그 반대의 경우도 마찬가지입니다 : 예를 들어 PC1 …

2
순서 또는 명목 데이터에서 범주를 병합 / 축소하는 방법은 무엇입니까?
명목 또는 서수 데이터에서 범주 수를 줄이는 방법을 찾기 위해 고심하고 있습니다. 예를 들어, 여러 명목 및 순서 요인이있는 데이터 집합에 회귀 모델을 작성한다고 가정 해 보겠습니다. 이 단계에는 아무런 문제가 없지만, 종종 공칭 기능이 훈련 세트에서 관찰되지 않지만 유효성 검사 데이터 세트에 존재하는 상황이 자주 발생합니다. 이로 인해 모델에 …


3
분류를 위해 T-SNE를 사용하여 하이퍼 파라미터 선택
(경쟁)으로 작업하는 특정 문제로 21 가지 기능 ([0,1]에서 숫자) 및 이진 출력이라는 다음 설정이 있습니다. 약 100K 행이 있습니다. 설정이 시끄 럽습니다. 나와 다른 참가자는 잠시 동안 기능 생성을 적용하고이 설정에서는 t- 분산 확률 론적 이웃 임베딩이 다소 강력한 것으로 나타났습니다. 나는 "t-SNE를 효과적으로 사용하는 방법"이라는 글을 우연히 발견 했지만 …

1
감독 차원 축소
15K 레이블이 지정된 샘플 (10 그룹)로 구성된 데이터 세트가 있습니다. 레이블의 지식을 고려하여 차원 축소를 2 차원으로 적용하고 싶습니다. PCA와 같은 "표준"감독되지 않은 차원 축소 기법을 사용할 때 산점도는 알려진 레이블과 관련이없는 것 같습니다. 찾고있는 이름이 있습니까? 솔루션에 대한 몇 가지 참조를 읽고 싶습니다.


1
LDA의 대수. 변수 및 선형 판별 분석의 피셔 식별 능력
분명히, Fisher 분석은 클래스 간 분산을 최소화하면서 동시에 클래스 간 분리를 최대화하는 것을 목표로합니다. 변수의 판별력에 대한 유용한 측정 값은 대각선 양 됩니다.비나는 내가/ W나는 내가Bii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html p x p사이 ( B )와 클래스 내 ( W ) 행렬 의 크기 ( ) 는 입력 변수의 수에 의해 주어진다는 것을 …

2
데이터 축소에 대한 반복 측정에서 PCA를 수행 할 수 있습니까?
나는 두 가지 상황에서 각각 87 마리의 동물에 대해 3 번의 실험을했습니다 (일부 누락 된 데이터; 누락 된 데이터 없음 = 64 마리의 동물). 내가 (그들에게 전화하는 상황에서 행동을 설명하는 2 ~ 3 복합 행동 점수를 개발하려는 있도록 맥락에서, 나는 많은 특정 조치를 (입력 시간, 쉼터로 돌아 횟수 등)이 C1, …

1
LLE (local linear embedding) 알고리즘의 단계를 설명 하시겠습니까?
LLE 알고리즘의 기본 원리는 세 단계로 구성되어 있습니다. k-nn과 같은 메트릭으로 각 데이터 포인트의 주변을 찾습니다. 이웃이 데이터 포인트에 미치는 영향을 나타내는 각 이웃에 대한 가중치를 찾으십시오. 계산 된 가중치를 기반으로 데이터의 저 차원 임베딩을 구성하십시오. 그러나 2 단계와 3 단계에 대한 수학적 설명은 내가 읽은 모든 교과서와 온라인 자료에서 …

1
커널 PCA 용 커널을 선택하는 방법은 무엇입니까?
커널 PCA (주성분 분석)가 최종 데이터 출력에서 ​​어떤 커널을 선택하여 데이터를 양호하게 분리 할 수있는 방법은 무엇이며 커널의 매개 변수를 최적화하는 방법은 무엇입니까? 가능한 경우 Layman의 용어를 높이 평가할 것이며 그러한 방법을 설명하는 논문 링크도 좋습니다.

1
t-SNE에서 축의 의미는 무엇입니까?
나는 현재 t-SNE 수학 주위로 머리를 감싸려고합니다 . 불행히도, 여전히 만족스럽게 대답 할 수없는 질문이 하나 있습니다 : t-SNE 그래프에서 축의 실제 의미는 무엇입니까? 이 주제에 대한 프레젠테이션을하거나 출판물에 포함시킬 경우 : 축에 적절한 레이블을 어떻게 지정합니까? 추신 : 나는 이 Reddit 질문을 읽었 지만 거기에 주어진 대답 (예 : …

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
거리 매트릭스만으로 PCA 수행
페어 단위 거리 만있는 거대한 데이터 세트를 클러스터하고 싶습니다. k-medoids 알고리즘을 구현했지만 실행하는 데 시간이 너무 오래 걸리므로 PCA를 적용하여 문제의 차원을 줄이는 것으로 시작하고 싶습니다. 그러나이 방법을 수행하는 유일한 방법은 내 상황에없는 공분산 행렬을 사용하는 것입니다. 쌍별 거리 만 알고 PCA를 적용 할 수있는 방법이 있습니까?


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.