«distance» 태그된 질문

n 공간의 점 사이의 유클리드 거리와 같은 분포 또는 변수 간 거리 측정

9
Mahalanobis 거리에 대한 하단에서 상단까지의 설명?
나는 패턴 인식과 통계 그리고 Mahalanobis distance 의 개념에 부딪힌 주제에 관해 열 었던 거의 모든 책을 연구하고 있습니다 . 이 책은 일종의 직관적 인 설명을 제공하지만, 실제로 무슨 일이 일어나고 있는지 실제로 이해하기에는 충분하지 않습니다. 누군가가 "말라 노비스 거리는 얼마입니까?" 나는 단지 대답 할 수 있었다 : "이 종류의 …

3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
KL (Kullback-Leibler) 분기에 대한 직관
모델 분포 함수가 데이터의 이론적 / 실제 분포와 얼마나 다른지에 따라 KL Divergence의 직관에 대해 배웠습니다. 내가 읽고있는 출처는이 두 분포 사이의 '거리'에 대한 직관적 인 이해가 도움이되지만 두 분포 PPP 와 QQQ 대해 문자 그대로 취해서는 안된다고 말하면서 KL 분기는 PPP 와 QQQ 에서 대칭이 아닙니다 . 마지막 진술을 …

2
계층 적 클러스터링을위한 올바른 연계 방법 선택
Google BigQuery의 레딧 데이터 덤프에서 수집하고 처리 한 데이터에 대해 계층 적 클러스터링 을 수행 하고 있습니다. 내 프로세스는 다음과 같습니다. / r / politics에서 최신 1000 개의 게시물 가져 오기 모든 의견 수집 데이터 처리 및 n x m데이터 매트릭스 계산 (n : 사용자 / 샘플, m : 포스트 …

1
유사도 행렬을 (유클리드) 거리 행렬로 변환
랜덤 포레스트 알고리즘에서 Breiman (저자)은 다음과 같이 유사성 매트릭스를 구성합니다. 모든 학습 예제를 숲의 각 나무 아래로 보냅니다. 두 개의 예제가 동일한 리프에 도달하면 유사성 매트릭스의 해당 요소가 1 씩 증가합니다. 나무 수로 행렬 정규화 그는 말한다 : 케이스 n과 k 사이의 근접성은 행렬 {prox (n, k)}를 형성합니다. 그들의 정의에 …


1
Mantel 테스트를 비대칭 매트릭스로 확장 할 수 있습니까?
벽난로 테스트는 일반적으로 대칭 거리 / 차 행렬에 적용됩니다. 내가 이해하는 한, 테스트의 가정은 차이를 정의하는 데 사용되는 측정 값이 최소한 반 메트릭이어야한다는 것입니다 (삼각형 불평등이 아닌 메트릭의 표준 요구 사항을 충족해야 함). 대칭의 가정이 완화 될 수 있습니까 (사전 측정치 제공)? 이 경우 전체 행렬을 사용하여 순열 테스트를 적용 …

1
거리 메트릭으로 상관 관계 사용 (계층 적 클러스터링의 경우)
데이터를 계층 적으로 클러스터하고 싶지만 유클리드 거리를 사용하는 대신 상관 관계를 사용하고 싶습니다. 또한 상관 계수의 범위는 -1에서 1까지이며, 연구에서 -1과 1이 모두 "공-조절"을 나타내므로 -1과 1을 d = 0으로 취급합니다. 따라서 계산은 d=1−|r| d=1−|r|\ d = 1-|r| 나는 코사인 정리를 사용하여 r 을 진정한 유클리드 d 로 변환해야한다는 별도의 …

8
특징 별 데이터가 아닌 거리 행렬만으로 K- 평균 (또는 가까운 친척) 클러스터링 수행
내가 가진 객체에서 K- 평균 군집화를 수행하고 싶지만 객체가 공간의 포인트, 즉 objects x features데이터 세트 로 설명되지 않습니다 . 그러나 두 객체 사이의 거리를 계산할 수 있습니다 (유사 기능을 기반으로 함). 그래서 나는 거리 행렬을 폐기합니다 objects x objects. 이전에 K- 평균을 구현했지만 포인트 데이터 세트 입력이있었습니다. 거리 매트릭스 …

4
혼합 데이터가 유클리드 기반 클러스터링 알고리즘에 문제가되는 이유는 무엇입니까?
대부분의 고전적 군집 및 차원 축소 알고리즘 (계층 적 군집, 주요 구성 요소 분석, k- 평균, 자체 구성 맵 ...)은 숫자 데이터를 위해 특별히 설계되었으며 입력 데이터는 유클리드 공간에서 점으로 표시됩니다. 많은 실제 문제에 혼합 된 데이터가 포함되어 있기 때문에 물론 문제입니다. 예를 들어 버스를 연구하는 경우 높이와 길이 및 …

3
두 정규 분포 간의 차이 분포
정규 분포의 두 가지 확률 밀도 함수가 있습니다. f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } 과 f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } 과 사이의 분리 확률 확률 함수를 찾고 있습니다. 내 생각에 의 확률 밀도 함수를 찾고 …


9
페어 와이즈 마할 라 노비스 거리
공변량 의 행렬 에서 모든 관측 쌍 사이의 R에서 샘플 Mahalanobis 거리를 계산해야합니다 . 효율적인 솔루션, 즉 거리 만 계산되고 바람직하게는 C / RCpp / Fortran 등으로 구현 되는 솔루션이 필요합니다 . 모집단 공분산 행렬 인 가 알려져 있지 않으며 샘플을 사용 한다고 가정합니다. 그 자리에 공분산 행렬이 있습니다.n ( …
18 r  algorithms  distance 

3
실제로 Kullback-Leibler Divergence를 계산 하시겠습니까?
나는 2 사이의 비 유사성 척도로 KL 분기를 사용하고 있습니다. m . f . p.m.f.p.m.f.p.m.f. PPP 와 QQQ . =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi)DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln⁡(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) 경우 그리고, 우리는 쉽게 그 계산할 수 P(Xi)=0P(Xi)=0P(X_i)=0P(Xi)ln(Q(Xi))=0P(Xi)ln(Q(Xi))=0P(X_i)ln\left(Q(X_i)\right)=0 P(Xi)ln(P(Xi))=0P(Xi)ln(P(Xi))=0P(X_i)ln\left(P(X_i)\right)=0 그러나 및 를 계산하는 방법P(Xi)≠0P(Xi)≠0P(X_i)\ne0Q(Xi)=0Q(Xi)=0Q(X_i)=0P(Xi)ln(Q(Xi))P(Xi)ln(Q(Xi))P(X_i)ln\left(Q(X_i)\right)

3
KL (Kullback-Leibler) 발산의 최대 값은 얼마입니까?
파이썬 코드에서 KL 분기를 사용 하고이 자습서를 얻었습니다 . 이 튜토리얼에서 KL 분기를 구현하는 것은 매우 간단합니다. kl = (model * np.log(model/actual)).sum() 이해 된 바와 같이, 확률 분포 model및 actual<= 1이어야한다. 내 질문은 k의 최대 한계 / 최대 가능한 값은 무엇입니까?입니다. 내 코드의 최대 경계와 관련하여 kl 거리의 최대 값을 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.