통계 및 빅 데이터 r

4

주제 모델링을 수행하기위한 R 패키지 / LDA :`topicmodels` 및`lda` [폐쇄]

두 개의 R 패키지 만 Latent Dirichlet Allocation 을 수행 할 수있는 것 같습니다 . 하나는 ldaJonathan Chang이 저술 한 것입니다 . 다른 하나는 topicmodelsBettina Grün과 Kurt Hornik 이 저술했습니다. 성능, 구현 세부 사항 및 확장 성 측면에서이 두 패키지의 차이점은 무엇입니까?

29 r bayesian text-mining topic-models latent-dirichlet-alloc

6

Shapiro-Wilk 테스트의 해석

통계가 처음이므로 도움이 필요합니다. 다음과 같이 작은 샘플이 있습니다. H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 R을 사용하여 Shapiro-Wilk 테스트를 실행했습니다. shapiro.test(precisionH4U$H4U) 그리고 나는 다음과 같은 결과를 얻었다 : W = 0.9502, p-value = 0.6921 이제 p- 값보다 0.05의 유의 수준이 알파보다 크면 (0.6921> 0.05) 정규 분포에 …

29 r distributions interpretation goodness-of-fit normality-assumption

2

정규화 또는 벌칙을 적용하여 ARIMAX 모델 피팅 (예 : 올가미, 탄성 그물 또는 릿지 회귀)

내가 사용 auto.arima () 의 기능을 예측 공변량의 다양한 ARMAX 모델에 맞게 패키지로 제공된다. 그러나 종종 선택할 변수가 많으며 대개 하위 집합으로 작동하는 최종 모델로 끝납니다. 나는 인간이고 편견의 영향을 받기 때문에 변수 선택에 대한 임시 기술을 좋아하지 않지만 교차 유효성 검사 시계열은 어렵 기 때문에 사용 가능한 변수의 다른 …

29 r time-series lasso regularization elastic-net

3

PCA를 통해 직교 회귀 (총 최소 제곱)를 수행하는 방법은 무엇입니까?

나는 항상 lm()R 에서 에 선형 회귀를 수행하기 위해 사용 합니다. 이 함수는 와 같은 계수 반환합니다x β y = β x .와이와이y엑스엑스xββ\beta와이= βx .와이=β엑스.y = \beta x. 오늘 나는 최소 최소 제곱 에 대해 배웠고 그 princomp()기능 (주성분 분석, PCA)을 사용하여 그것을 수행 할 수 있습니다. 나에게 좋을 것입니다 …

29 r pca least-squares deming-regression total-least-squares

4

lm ()의 결과를 방정식으로 변환하는 방법은 무엇입니까?

lm()값을 예측하는 데 사용할 수 있지만 경우에 따라 결과 수식의 방정식이 여전히 필요합니다. 예를 들어, 방정식을 도표에 추가하십시오.

29 r regression lm

3

R : 데이터 집합에 NaN이 없어도 "외부 함수 호출"오류에서 NaN / Inf를 발생시키는 임의 포리스트 [닫기]

캐럿을 사용하여 데이터 세트에 대해 교차 유효성 검사 임의 포리스트를 실행하고 있습니다. Y 변수는 요인입니다. 내 데이터 세트에 NaN, Inf 또는 NA가 없습니다. 그러나 임의의 포리스트를 실행하면 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

2

glm을 실행할 때 오류“시스템이 계산적으로 특이하다”

glm 추정을 실행하기 위해 튼튼베이스 패키지를 사용하고 있습니다. 그러나 그렇게하면 다음과 같은 오류가 발생합니다. Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 이것은 무엇을 의미 / 표시합니까? 어떻게 디버깅 할 수 있습니까? 추신. 답을 구하기 위해 무언가 (공식 / 사양 또는 …

29 r generalized-linear-model robust

1

R의 초 / 분 간격 데이터에 대한 "주파수"값

예측을 위해 R (3.1.1) 및 ARIMA 모델을 사용하고 있습니다. 다음과 같은 시계열 데이터를 사용하는 경우 함수에 할당 된 "frequency"매개 변수ts() 가 무엇인지 알고 싶습니다 . 분 단위로 구분되며 180 일에 걸쳐 분산 됨 (1440 분 / 일) 초 단위로 구분되며 180 일 (86,400 초 / 일)에 걸쳐 분산됩니다. 정의를 올바르게 …

28 r time-series arima multiple-seasonalities mape

2

glmnet 능형 회귀 분석이 왜 수동 계산과 다른 답변을 제공합니까?

능선 회귀 추정치를 계산하기 위해 glmnet을 사용하고 있습니다. 나는 glmnet이 실제로 내가 생각하는 것을하고 있다는 것을 의심하게 만드는 몇 가지 결과를 얻었습니다. 이를 확인하기 위해 solve에서 수행 한 능선 회귀와 glmnet의 결과를 비교하는 간단한 R 스크립트를 작성했습니다. n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y …

28 r ridge-regression glmnet

1

다른 거리와 방법으로 얻은 계층 적 군집 덴드로 그램 비교

[초기 제목 "계층 적 클러스터링 트리의 유사성 측정"은 나중에 주제를 더 잘 반영하기 위해 @ttnphns에 의해 변경됨] 환자 기록의 데이터 프레임에서 여러 계층 적 클러스터 분석 을 수행하고 있습니다 (예 : http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y 와 유사 ) 나무의 최종 군집 / 구조 /보기 (dendrogram)에 미치는 영향을 이해하기 위해 다른 거리 측정, 다른 …

28 r clustering distance-functions similarities dendrogram

3

혼합 모형 (lme4)에서 범주 형 요인에 대한 "전체"p- 값 및 효과 크기를 얻는 방법은 무엇입니까?

독립적 인 범주 형 변수 (여러 수준)의 p- 값과 효과 크기를 얻고 싶습니다. 즉, "전체"이며 각 수준에 대해 개별적으로는 아닙니다 ( lme4R 의 일반 출력 과 동일). 분산 분석을 실행할 때 사람들이보고하는 것. 어떻게 구할 수 있습니까?

28 r hypothesis-testing anova mixed-model lme4-nlme

7

R 패키지를 작성하는 이유와시기

나는이 질문이 상당히 광범위하다는 것을 이해하지만, R을위한 새로운 패키지를 만들거나 결정하지 않을 때 결정적인 포인트가 무엇인지 궁금합니다. 다양한 스크립트를 컴파일하고 새로운 패키지에 통합하기로 결정한 것에 대해 R 자체를 사용하십시오. 이러한 결정으로 이어질 수있는 요점들 중에서 나는 다음과 같은 생각을했습니다. 동일한 서브 필드에 다른 패키지가 존재하지 않는 것; 다른 연구자들과 교류하고 …

28 r software

5

선형 회귀에 대한 동성애 가정을 위반하면 어떤 위험이 있습니까?

예를 들어 ChickWeightR의 데이터 세트를 고려하십시오 . 분산은 시간이 지남에 따라 분명히 커지므로 다음과 같은 간단한 선형 회귀를 사용하면 다음과 같습니다. m <- lm(weight ~ Time*Diet, data=ChickWeight) 내 질문 : 모델의 어떤 측면에 의문이 생길까요? 문제가 Time범위를 벗어나는 것으로 제한 됩니까? 이 가정의 위반에 대한 선형 회귀는 얼마나 관대합니까 (즉,이 …

28 r regression heteroscedasticity assumptions

1

혼합 효과 모델에서 랜덤 효과의 분산 및 상관 관계를 해석하는 방법은 무엇입니까?

여러분 모두이 질문에 신경 쓰지 않기를 바라지 만 R에서 배우려고했던 선형 혼합 효과 모델 출력에 대한 출력을 해석하는 데 도움이 필요합니다. 세로 데이터 분석 및 선형 혼합 효과 회귀에 익숙하지 않습니다. 나는 시간 예측 자로 몇 주를 맞춘 모델을 가지고 있으며, 고용 과정에서 내 성과로 점수를 매 깁니다. 몇 주 …

28 r mixed-model interpretation panel-data

3

R과 함께 부트 스트랩을 사용하여 p- 값 계산

"boot"패키지를 사용하여 대략적인 양면 부트 스트랩 p- 값 을 계산 하지만 결과는 t.test를 사용하는 p- 값과 너무 멀리 떨어져 있습니다. R 코드에서 내가 뭘 잘못했는지 알 수 없습니다. 누군가 나에게 이것에 대한 힌트를 줄 수 있습니까? time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ …

28 r hypothesis-testing p-value bootstrap permutation-test

«r» 태그된 질문