통계 및 빅 데이터 r

3

데이터 분석의 모범 사례에 대해 배우려면 github을 팔로우해야 할 사람은 누구입니까?

전문가의 데이터 분석 코드를 연구하는 것이 도움이됩니다. 나는 최근에 github 에 대해 잘 알고 있으며 많은 사람들이 데이터 분석 코드를 공유하고 있습니다. 여기에는 몇 개의 R 패키지 (물론 CRAN에서 직접 구할 수 있음)뿐만 아니라 특히 R을 사용하는 재현 가능한 연구의 몇 가지 예도 포함됩니다 (github의이 R 목록 참조 ). 데이터 …

28 r reproducible-research

4

GLM에 대한 의사 R 제곱 공식

나는 R, Julian J. Faraway (p. 59)로 선형 모델 확장 책에서 pseudo 에 대한 공식을 찾았습니다 .아르 자형2아르 자형2R^2 1 - ResidualDevianceNullDeviance1−잔류 편차NullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} . 이것이 GLM에 대한 의사 의 일반적인 공식 입니까?아르 자형2아르 자형2R^2

28 r regression generalized-linear-model r-squared

1

lmer 모델의 효과 반복 계산

방금 혼합 효과 모델링을 통해 측정의 반복성 (일명 신뢰성, 일명 클래스 내 상관 관계)을 계산하는 방법을 설명하는 이 문서를 보았습니다. R 코드는 다음과 같습니다. #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

3

R로 시계열에 대해 신중하게하기

다시 생각하면 시계열 분석을 처음 시작했을 때까지입니다. 어떤 도구, R 패키지 및 인터넷 리소스를 알고 싶습니까? 내가 묻는 것은 어디에서 시작해야 하는가입니다. 구체적으로, R을 사용하여 시계열 분석에 "새로운"사람을 위해 그것을 진정시키는 R에 대한 자원이 있습니까?

28 r time-series

3

R에 불연속 균일 분포에 대한 기본 기능이 있습니까?

R의 대부분의 표준 분포에는 pdf / pmf, cdf / cmf, Quantile, random 편차가 있습니다 (예 : dnorm, pnorm, qnorm, rnorm). 불연속 균일 분포에 대한 이러한 기능을 재현하기 위해 일부 표준 명령을 사용하는 것이 쉽다는 것을 알고 있지만 이미 알지 못하는 R의 불연속 균일 분포를 모델링하기위한 기본 제공 기능 군이 이미 …

28 r distributions uniform

5

R 코드가 다중 프로세서를 사용하도록하는 데 대한 제안 사항이 있습니까?

다른 파일에서 많은 양의 CSV 데이터를 읽은 다음 svm과 같은 기계 학습 작업을 수행하기위한 R 스크립트가 있습니다. R의 서버에서 다중 코어를 사용하기위한 라이브러리 가 있습니까? 또는 이를 달성하기위한 가장 적합한 방법은 무엇입니까?

28 r parallel-computing multicore

26

일상 업무에서 가장 유용한 R 패키지는 무엇입니까?

중복 스레드 : 최신 버전의 R을 설치했습니다. 어떤 패키지를 구해야합니까? 일상적인 데이터 작업을 상상할 수 없었던 R 패키지 는 무엇입니까 ? 일반 도구와 특정 도구를 모두 나열하십시오. 업데이트 : 24.10.10 ggplot2은 7 표를 얻은 승자 인 것 같습니다. 하나 이상 언급 된 다른 패키지는 다음과 같습니다. plyr -4 RODBC, RMySQL-4 …

28 r

3

변수 선택을 수행 할 때 다중 공선 성을 다루는 방법은 무엇입니까?

9 개의 연속 독립 변수가있는 데이터 세트가 있습니다. 모델을 단일 백분율 (종속) 변수에 맞추기 위해 이러한 변수 중에서 선택하려고합니다 Score. 불행히도, 나는 여러 변수 사이에 심각한 공선 성이 있음을 알고 있습니다. stepAIC()변수 선택을 위해 R 의 함수를 사용해 보았지만 그 방법은 변수가 방정식에 나열된 순서에 민감한 것 같습니다 ... 내 …

28 r multiple-regression feature-selection multicollinearity

4

R에서 차원 축소를 수행하는 방법

a (i, j)가 개별 페이지 j를 몇 번 본지를 알려주는 행렬이 있습니다. 27K 개인과 95K 페이지가 있습니다. 나는 종종 함께 볼 수있는 페이지 세트에 해당하는 페이지 공간에 소수의 "치수"또는 "종횡비"를 갖고 싶습니다. 저의 궁극적 인 목표는 개인이 1, 2, 등의 페이지를 얼마나 자주 본지 계산하는 것입니다. 주요 구성 요소 분석 …

28 r clustering dimensionality-reduction

1

자유도는 정수가 아닌 숫자 일 수 있습니까?

GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

R을 사용한 치수 축소에서 t-SNE 대 PCA의 문제점은 무엇입니까?

336x256 부동 소수점 수 (336 박테리아 게놈 (열) x 256 정규화 테트라 뉴클레오티드 빈도 (행)의 행렬을 가지고 있습니다 (예 : 모든 열은 1을 더합니다). 원리 성분 분석을 사용하여 분석을 실행할 때 좋은 결과를 얻습니다. 먼저 데이터에서 kmeans 클러스터를 계산 한 다음 PCA를 실행하고 2D 및 3D의 초기 kmeans 클러스터링을 기반으로 …

27 r pca tsne

2

ARIMA의 값 p, d, q는 무엇입니까?

arimaR 의 함수에서 무엇을 order(1, 0, 12)의미합니까? 에 할당 할 수있는 값은 무엇입니까 p, d, q, 어떤 프로세스가 그 가치를 찾을 수있다는?

27 r time-series arima

5

생물학, 심리학 및 의학에서 lmer를 사용한 혼합 모형 분석에 대한 예제 보고서?

일반적인 합의 lmer()는 고전적인 분산 분석 대신 R에서 혼합 모델을 사용하는 것 같습니다 (불평형 설계, 교차 임의 효과 등 자주 인용되는 이유로), 나는 데이터를 사용 해보고 싶습니다. 그러나이 접근 방식을 관리자 (최종 p- 값으로 고전적인 분석을 기대하는 관리자) 또는 나중에 검토 자에게 "판매"할 수 있을지 걱정됩니다. 혼합 모델을 사용 lmer()하거나 …

27 r mixed-model repeated-measures lme4-nlme references

2

다단계 모델에서, 랜덤 효과 상관 파라미터를 추정하는 것과 추정하지 않는 것에 대한 실질적인 의미는 무엇입니까?

다단계 모델에서 추정과 랜덤 효과 상관 모수의 추정과 비교의 실제적이고 해석과 관련된 의미는 무엇입니까? 이를 요청하는 실제적인 이유는 R의 lmer 프레임 워크에서 매개 변수 간의 상관 모델에서 추정이 수행 될 때 MCMC 기법을 통해 p- 값을 추정하는 방법이 없기 때문입니다. 예를 들어이 예제 (아래 인용 부분)를 보면 M2와 M3의 실제 …

27 r mixed-model lme4-nlme random-effects-model

1

모형에서 항을 제거한 후 적절한 잔차 자유도

저는 이 질문 에 대한 토론 과 특히 축소 된 모형 (예 : 여러 설명 변수가 테스트되고 거부 된 모형)의 분산 추정치는 Ye의 일반화 된 자유도를 사용해야한다는 Frank Harrell의 의견을 반영하고 있습니다 . Harrell 교수는 이것이 최종 모델 (여러 변수가 기각 된)의 모델보다 원래의 "풀"모델 (모든 변수가 포함 된)의 잔류 …

27 r regression model-selection regression-strategies

«r» 태그된 질문