통계 및 빅 데이터

3

계층 적 클러스터링을 수행 할 때 많은 메트릭을 사용하여 클러스터 간의 거리를 측정 할 수 있습니다. 이러한 두 가지 메트릭은 클러스터의 중심점 및 데이터 포인트의 평균을 의미합니다. 평균과 중심의 차이점은 무엇입니까? 클러스터에서 동일한 지점이 아닙니까?

26 clustering mean

2

교호 작용 항이 포함 된 경우에만 문제가되는 공선 성 진단

나는 미국 카운티에 대해 회귀 분석을 수행했으며 '독립적 인'변수에서 공선 성을 검사하고 있습니다. Belsley, Kuh 및 Welsch의 회귀 진단 에서는 조건 지수 및 분산 분해 비율을 살펴볼 것을 제안합니다. library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct …

26 r multicollinearity vif variance-decomposition

2

귀무 가설 하에서 선형 회귀 분석에서

귀무 가설 H 0 : β = 0 에서 선형 일 변량 다중 회귀 분석에서 결정 계수 또는 R 제곱 의 분포는 무엇입니까 ?R2R2R^2H0:β=0H0:β=0H_0:\beta=0 예측 변수 수 kkk 및 샘플 수 에 어떻게 의존 n>kn>kn>k합니까? 이 분포 모드에 대해 닫힌 형식의 표현이 있습니까? 특히, 간단한 회귀 (하나의 예측 변수 xxx …

26 regression mathematical-statistics r-squared intuition

2

거대한 희소 행렬의 SVD를 계산하는 방법은 무엇입니까?

데이터가 매우 희소 한 매우 큰 양의 행렬 (65M x 3.4M)의 단일 값 분해 (SVD)를 계산하는 가장 좋은 방법은 무엇입니까? 행렬의 0.1 % 미만이 0이 아닙니다. 나는 그 방법이 필요하다 : 메모리에 들어갈 것입니다 (온라인 방법이 있다는 것을 알고 있습니다) 적당한 시간에 계산됩니다 : 3,4 일 정확도는 충분하지만 정확성은 저의 …

26 svd numerics

2

“더블 올가미”를하거나 올가미를 두 번 수행 할 때의 이점은 무엇입니까?

한 번은 올가미를 두 번 사용하는 방법을 들었습니다 (이중 올가미와 같이). 여기서 S1과 같은 원래 변수 세트에서 올가미를 수행하고 S2라는 스파 스 세트를 얻은 다음 세트 S2에서 올가미를 다시 수행하여 세트 S3을 얻습니다. . 이에 대한 방법 론적 용어가 있습니까? 또한 올가미를 두 번 사용하면 어떤 이점이 있습니까?

26 regression lasso regularization shrinkage lars

2

R에서 다중 회귀 변수 변환

에서 다중 회귀를 수행하려고합니다 R. 그러나 내 종속 변수에는 다음 플롯이 있습니다. 다음은 모든 변수가있는 산점도 행렬입니다 ( WAR종속 변수입니다). 이 변수 (및 독립 변수)에 대한 변환을 수행해야하지만 정확한 변환이 확실하지 않습니다. 누군가 올바른 방향으로 나를 가리킬 수 있습니까? 독립 변수와 종속 변수 간의 관계에 대한 추가 정보를 제공하게되어 기쁩니다. …

26 r regression multiple-regression data-transformation

3

가우시안 프로세스 모델이 비모수 적이라고 불리는 이유는 무엇입니까?

약간 혼란 스러워요. 가우스 프로세스가 비모수 적 모델이라고하는 이유는 무엇입니까? 그들은 기능 값 또는 그 하위 집합에 평균 0과 커널 함수로 제공된 공분산 함수가있는 가우시안이 있다고 가정합니다. 이 커널 함수 자체에는 몇 가지 매개 변수 (예 : 하이퍼 파라미터)가 있습니다. 그렇다면 왜 비모수 적 모델이라고 불리는가?

26 nonparametric gaussian-process

1

Mantel 테스트를 비대칭 매트릭스로 확장 할 수 있습니까?

벽난로 테스트는 일반적으로 대칭 거리 / 차 행렬에 적용됩니다. 내가 이해하는 한, 테스트의 가정은 차이를 정의하는 데 사용되는 측정 값이 최소한 반 메트릭이어야한다는 것입니다 (삼각형 불평등이 아닌 메트릭의 표준 요구 사항을 충족해야 함). 대칭의 가정이 완화 될 수 있습니까 (사전 측정치 제공)? 이 경우 전체 행렬을 사용하여 순열 테스트를 적용 …

26 statistical-significance assumptions distance

5

다양한 잠재 고객에게 고급 통계를 도입하기위한 전략

나는 의학, 사회 과학 및 교육과 같은 분야의 비 통계 학자와 주로 일합니다. 대학원생과의 상담, 기사의 연구자 지원 또는 저널의 기사 검토 등, 누군가 (클라이언트, 저자, 논문위원회, 저널 편집자)가 완전히 알려진 경우 비교적 잘 알려진 기술을 사용하려는 경우가 종종 있습니다 부적절하거나 더 좋지만 알려지지 않은 방법이 존재하는 경우 종종 대안 …

26 consulting

3

주제 모델 및 단어 동시 발생 방법

LDA와 같은 인기있는 주제 모델은 일반적으로 같은 주제 (클러스터)로 함께 발생하는 단어를 묶습니다. 이러한 주제 모델과 PMI와 같은 다른 간단한 동시 발생 기반 클러스터링 방식의 주요 차이점은 무엇입니까? (PMI는 Pointwise Mutual Information의 약자이며 주어진 단어와 함께 발생하는 단어를 식별하는 데 사용됩니다.)

26 machine-learning text-mining natural-language topic-models

6

정현파 항을 데이터에 적합

이 게시물을 읽었지만 여전히 내 데이터에 어떻게 적용하고 누군가 나를 도울 수 있기를 바랍니다. 다음과 같은 데이터가 있습니다. y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, 11.687638, 11.947783, 12.228909, 11.918379, 12.343574, …

26 r regression fitting

1

선형 회귀 분석에서 계수 표준 오차를 해석하는 방법은 무엇입니까?

R에서 표시 기능을 사용할 때 회귀의 계수 표준 오류를 해석하는 방법이 궁금합니다. 예를 들어 다음 출력에서 : lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = 40, k = 3 residual sd = 0.90, R-Squared = …

26 r regression interpretation

2

짝을 이루지 않은 t- 검정 대신 Wilcoxon rank-sum test를 언제 사용해야합니까?

이것은 프랭크 하렐 쓴 무엇에 대한 후속 질문은 여기에 : 내 경험상 정확한 t 분포에 필요한 샘플 크기는 종종 샘플 크기보다 큽니다. Wilcoxon 부호가있는 테스트는 말한 것처럼 매우 효율적이며 강력하므로 t 테스트보다 거의 항상 선호합니다. 내가 정확하게 이해한다면-두 개의 일치하지 않는 샘플의 위치를 비교할 때 샘플 크기가 작은 경우 짝을 …

26 t-test wilcoxon-mann-whitney

2

페널티 선형 회귀의 기하학적 해석

선형 회귀는 "모든 점에 수직으로 가장 가까운 선" 으로 생각할 수 있습니다 . 그러나 열 공간을 "계수 매트릭스의 열이 차지하는 공간으로의 투영" 으로 시각화하여이를 확인할 수있는 또 다른 방법이 있습니다 . 내 질문은 :이 두 가지 해석에서 릿지 회귀 및 LASSO 와 같은 페널티 선형 회귀를 사용하면 어떻게됩니까 ? 첫 …

26 regression intuition geometry

6

로지스틱 회귀 분석의 표본 크기?

설문 조사 데이터에서 물류 모델을 만들고 싶습니다. 응답자 154 명만 인터뷰 한 4 개의 거주지 식민지에 대한 소규모 조사입니다. 내 종속 변수는 "만족스러운 전환으로 작동"입니다. 154 명의 응답자 중 73 명은 만족스럽게 직장으로 전환했지만 나머지는 그렇지 않다는 것을 알았습니다. 따라서 종속 변수는 본질적으로 이진이며 로지스틱 회귀를 사용하기로 결정했습니다. 7 개의 …

26 logistic sample-size assumptions power unbalanced-classes