«multivariate-analysis» 태그된 질문

한 번에 둘 이상의 변수가 함께 분석되는 위치를 분석하고 이러한 변수는 종속 (응답) 또는 분석에서 유일한 변수입니다. 이는 "다중"또는 "다중 변수"분석과 대조 될 수 있으며, 이는 둘 이상의 예측 변수 (독립) 변수를 의미합니다.

1
상관 행렬의 SVD는 부가 적이어야하지만 그렇지 않은 것으로 보인다
방금 다음 논문 인 Gene Expression Data에서 상관 관계있는 Biclusters 찾기 에 대한 주장을 복제하려고합니다 . 법안 4. . 우리는 :XIJ=RICTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} 나는. 경우 첨가제 모델과 완벽한 bicluster는 다음 열에 대한 상관 관계와 완벽한 bicluster이다; ii. 경우 첨가제 모델과 완벽한 bicluster는 다음 X_ {IJ는} 행에 대한 상관 관계와 완벽한 bicluster이다; iii. …

6
이진 분류를위한 변수 선택 절차
학습 세트의 관측치보다 많은 변수 / 기능이있을 때 이진 분류에 선호 하는 변수 / 기능 선택 은 무엇입니까 ? 여기서 목표는 분류 오류를 최대한 줄이는 기능 선택 절차가 무엇인지 논의하는 것입니다. 우리는 할 수 있습니다 표기법을 수정 일관성을 위해 : 대한 ,하자 수 관찰 학습 세트를 그룹에서 . 따라서 은 …

5
두 개의 다변량 분포 사이의 "거리"측정
리소스를보다 쉽게 ​​찾을 수 있도록 내가하려는 일을 설명 할 수있는 좋은 용어를 찾고 있습니다. 따라서 두 개의 점 A와 B의 클러스터가 있는데, 각각 두 개의 값 X와 Y와 연관되어 있고 A와 B 사이의 "거리"를 측정하려고합니다. 즉, 동일한 분포에서 표본이 추출 될 가능성은 얼마나됩니까? (분포가 정상이라고 가정 할 수 있습니다). 예를 …

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


4
가변 중요도 순위는 무엇에 유용합니까?
가변 중요도 순위 (모든 종류의 다변량 모델의 ​​맥락에서)와 관련하여 나는 다소 nihilist가되었습니다 . 종종 업무 수행 중에 다른 팀이 가변 중요도 순위를 생성하도록 지원하거나 내 업무에서 가변 중요도 순위를 생성하도록 요청받습니다. 이러한 요청에 따라 다음과 같은 질문을합니다. 이 변수 중요도 순위는 무엇입니까? 무엇으로부터 배우고 싶습니까? 어떤 결정을 사용하고 싶습니까? 내가받는 …

2
관측 수준 Mahalanobis 거리의 분포
다변량 정규 iid 샘플 가 있고 ( 가중치에 대한 행렬 를 사용하여 샘플 포인트에서 벡터 까지의 마할 라 노비스 거리 [제곱]의 일종 ), 의 분포 는 표본 공분산 행렬 사용하여 표본 평균 )?d 2 i ( b , A ) = ( X i - b ) ' A - …

2
다변량 회귀 분석을위한 랜덤 포레스트
입력 기능 및 출력에 다중 출력 회귀 문제가 있습니다. 출력에는 복잡한 비선형 상관 구조가 있습니다.디엑스디엑스d_x디와이디와이d_y 임의의 숲을 사용하여 회귀를 수행하고 싶습니다. 내가 알 수있는 한 회귀를위한 임의의 포리스트는 단일 출력에서만 작동하므로 임의의 포리스트를 각 출력마다 하나씩 훈련해야합니다 . 이것은 상관 관계를 무시합니다.디와이디와이d_y 출력 상관 관계를 고려한 임의 포리스트에 대한 확장이 …

2
“환율 감소 회귀”란 무엇입니까?
통계 학습의 요소를 읽었으며 3.7 "여러 결과 축소 및 선택"섹션이 무엇인지 이해할 수 없었습니다. 그것은 RRR (환원 순위 회귀)에 대해 이야기하며, 전제는 계수가 알려지지 않았고 (추정되어야하지만) 전체 순위를 갖지 않는 것으로 알려진 일반 다변량 선형 모델에 대해서만 이해할 수 있습니다. 그것이 내가 이해하는 유일한 것입니다. 나머지 수학은 저 너머에 있습니다. …

3
양수가 아닌 공분산 행렬은 내 데이터에 대해 무엇을 알려줍니까?
여러 다변량 관측 값이 있으며 모든 변수에 대한 확률 밀도를 평가하려고합니다. 데이터가 정규 분포되어 있다고 가정합니다. 적은 수의 변수에서는 모든 것이 예상대로 작동하지만 더 큰 수로 이동하면 공분산 행렬이 양의 한정이 아닙니다. Matlab의 문제를 다음과 같이 줄였습니다. load raw_data.mat; % matrix number-of-values x number of variables Sigma = cov(data); [R,err] …


2
이름에 포함 된 것 : 정밀도 (분산의 역)
직관적으로 평균은 관측치의 평균입니다. 분산은 이러한 관측치가 평균과 얼마나 다른지입니다. 분산의 역수가 왜 정밀도로 알려져 있는지 알고 싶습니다. 이것으로 우리는 어떤 직관을 할 수 있습니까? 그리고 다변량 (정규) 분포에서 공분산 행렬만큼 정밀 행렬이 유용한 이유는 무엇입니까? 통찰력주세요?

1
감마 분포를 이용한 디 리클 렛 분포 구성
하자 X1,…,Xk+1X1,…,Xk+1X_1,\dots,X_{k+1} 각 파라미터를 갖는 감마 분포 갖는 상호 독립적 랜덤 변수 일 αi,i=1,2,…,k+1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1 것을 보여 는Dirichlet(α1,α2,…,αk;αk+Yi=XiX1+⋯+Xk+1,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,kDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) ( X 1 , … , X k + 1 ) = e − ∑ k + 1 i = 1 x i x α 1 − 1 1 … x α k …


3
등각 로그 비율 변환을 수행하는 방법
나는 대략 24에 해당하는 움직임 행동 (자고있는 시간, 앉아있는 시간, 신체 활동을하는 시간)에 대한 데이터를 가지고 있습니다 (하루에 시간 단위로). 이러한 각 동작에 소요되는 상대적 시간을 캡처하는 변수를 만들고 싶습니다. 아이소 메트릭 로그 비율 변환이이 작업을 수행한다고 들었습니다. R에서 ilr 함수를 사용해야하는 것처럼 보이지만 코드가있는 실제 예제는 찾을 수 없습니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.