통계 및 빅 데이터 r

6

시간이 지남에 따라 사용자 (이 경우 "좋아요")의 작업 수를 그래프로 표시하려고합니다. 그래서 저는 y 축으로 "행동 횟수"를 가지고 있고 x 축은 시간 (주)이며 각 줄은 한 명의 사용자를 나타냅니다. 내 문제는 약 100 명의 사용자에 대해이 데이터를보고 싶다는 것입니다. 선 그래프는 빠르게 100 개의 선으로 뒤죽박죽이됩니다. 이 정보를 표시하는 데 …

30 r data-visualization

1

GAM에서 텐서 제품 상호 작용의 직관 (R의 MGCV 패키지)

일반화 된 첨가제 모델은 예를 들어 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 입니다. 기능은 매끄럽고 추정됩니다. 일반적으로 페널티 스플라인에 의해. MGCV는 R에 포함 된 패키지이며, 저자 (Simon Wood)는 R 예제와 함께 그의 패키지에 관한 책을 씁니다. Ruppert 등 (2003) 같은 버전의 더 간단한 버전에 대해 훨씬 …

30 r nonparametric interaction splines intuition

3

치료를 통해 데이터를 분리하는 산점도를 만들기 위해 R을 사용하는 좋은 방법은 무엇입니까?

나는 일반적으로 R과 통계에 매우 익숙하지만 기본 용량을 넘어서는 것으로 생각되는 산점도를 만들어야합니다. 나는 두 개의 관측치 벡터를 가지고 있으며 그것들과 함께 산점도를 만들고 싶어하며 각 쌍은 세 가지 범주 중 하나에 속합니다. 각 범주를 색상 또는 기호로 구분하는 산점도를 만들고 싶습니다. 나는 이것이 3 개의 다른 산점도를 생성하는 것보다 …

30 r data-visualization scatterplot

3

R은 텍스트 분류 작업으로 얼마나 잘 확장됩니까? [닫은]

R로 속도를 높이려고합니다. 결국 텍스트 분류를 위해 R 라이브러리를 사용하고 싶습니다. 텍스트 분류를 할 때 R의 확장 성과 관련하여 사람들의 경험이 무엇인지 궁금합니다. 고차원 데이터 (~ 300k 크기)에 빠질 수 있습니다. 특히 분류 알고리즘으로 SVM과 Random Forest를 사용하고 있습니다. R 라이브러리가 문제 크기에 맞게 확장됩니까? 감사. 편집 1 : 명확히하기 …

30 r machine-learning svm text-mining random-forest

2

주요 성분 분석에서 이중 점 해석

나는이 훌륭한 튜토리얼 : R을 사용한 통계 분석 핸드북을 보았습니다. 13 장. 주요 구성 요소 분석 : R 언어로 PCA를 수행하는 방법에 대한 올림픽 헵타 슬론 그림 13.3의 해석을 이해하지 못합니다. 그래서 첫 번째 고유 벡터와 두 번째 고유 벡터를 플로팅하고 있습니다. 그게 무슨 뜻이야? 첫 번째 고유 벡터에 해당하는 …

30 r pca data-visualization interpretation biplot

1

센터링은 PCA (SVD 및 고유 분해)에서 어떻게 차이를 만들어 줍니까?

PCA의 데이터 중심화 (또는 의미가없는)는 어떤 차이가 있습니까? 수학이 더 쉬워 지거나 첫 번째 PC가 변수의 수단에 의해 지배되는 것을 막는다 고 들었지만 아직 개념을 제대로 파악할 수 없었습니다. 예를 들어, 여기서 가장 좋은 대답 은 회귀 및 PCA에서 데이터를 중심에 어떻게 차단을 제거합니까? 중심이 포인트 클라우드의 주축이 아니라 원점을 …

30 r pca svd eigenvalues centering

3

어떤 분산 인플레이션 계수를 사용해야합니까 : 또는 ?

vifR 패키지 의 함수를 사용하여 분산 인플레이션 요인을 해석하려고 합니다 car. 이 함수는 일반화 된 및 합니다. 도움말 파일 에 따르면 이 후자의 값은GVIF 1 / ( 2 ⋅ df )VIFVIF\text{VIF}GVIF1 / ( 2 ⋅ df )GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} 신뢰 타원체의 치수를 조정하기 위해이 함수는 GVIF ^ [1 / (2 * df)]도 …

30 r multicollinearity vif

5

GBM에서 상호 작용 깊이는 무엇을 의미합니까?

R에서 gbm의 상호 작용 깊이 매개 변수에 대한 질문이 있습니다. 이것은 멍청한 질문 일 수 있지만 사과 할 수는 있지만 트리의 터미널 노드 수를 나타내는 매개 변수는 기본적으로 X-way를 나타냅니다. 예측 자들 사이의 상호 작용? 그것이 어떻게 작동하는지 이해하려고 노력합니다. 또한 두 요인 변수가 단일 요인으로 결합 된 경우를 제외하고 …

30 r machine-learning boosting gbm

4

McNemar의 검정과 카이 제곱 검정의 차이점은 무엇이며 각각의 사용시기를 어떻게 알 수 있습니까?

다른 출처를 읽으려고 시도했지만 여전히 어떤 경우에 어떤 테스트가 적합한 지 명확하지 않습니다. 내 데이터 세트에 대해 묻는 세 가지 다른 질문이 있습니다. 피험자들은 다른 시간에 X의 감염 여부를 검사합니다. X에 대한 양의 비율이 X에 대한 양의 비율과 관련이 있는지 알고 싶습니다. After |no |yes| Before|No |1157|35 | |Yes |220 …

30 r chi-squared mcnemar-test

2

플롯 해석 (glm.model)

누구나 '잔여 vs 적합', '정상 q-q', 'scale-location'및 '잔여 vs 레버리지'플롯을 해석하는 방법을 말해 줄 수 있습니까? 이항 GLM을 피팅하고 저장 한 다음 플로팅합니다.

30 r logistic data-visualization generalized-linear-model qq-plot

5

머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법

예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

메틸화 데이터에 대한 glmnet을 사용한 피처 선택 및 모델 (p >> N)

GLM과 Elastic Net을 사용하여 관련 기능을 선택하고 선형 회귀 모델을 작성하고 싶습니다 (예 : 예측과 이해 모두 상대적으로 적은 매개 변수로 남겨 두는 것이 좋습니다). 출력은 연속적입니다. 그것은이다 당 유전자 의 경우. 패키지 에 대해 읽었 지만 다음 단계에 대해 100 % 확신하지 못합니다.200002000020000505050glmnet CV를 수행 하여 입력 데이터가 주어지면 …

29 r regularization glmnet elastic-net underdetermined

1

로지스틱 회귀 분석에서 적합치에 대한 표준 오차는 어떻게 계산됩니까?

로지스틱 회귀 모형에서 적합치를 예측할 때 표준 오차는 어떻게 계산됩니까? I는 평균에 대한 피팅 값 (피셔 정보 행렬을 포함하는)이 아닌 계수들에 대한. 난 단지와 번호를 얻는 방법을 발견 R(예를 여기에 , 또는 R-도움에 여기 스택 오버플로),하지만 난 공식을 찾을 수 없습니다. pred <- predict(y.glm, newdata= something, se.fit=TRUE) 온라인 소스를 제공 …

29 r regression logistic mathematical-statistics references

3

두 개 이상의 회귀 모형에서 기울기를 비교하기 위해 어떤 테스트를 사용할 수 있습니까?

하나의 예측 변수에 대한 두 변수의 응답 차이를 테스트하고 싶습니다. 최소한의 재현 가능한 예는 다음과 같습니다. library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = …

29 r data-visualization multivariate-analysis hypothesis-testing

2

R에서 전이 행렬 계산 (Markov)

R (내장 함수)에 일련의 관측치에서 Markov Chain의 전이 행렬을 계산하는 방법이 있습니까? 예를 들어, 다음과 같은 데이터 세트를 가져와 1 차 전이 행렬을 계산합니까? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))

29 r markov-process

«r» 태그된 질문