통계 및 빅 데이터 r

2

glmer비즈니스 데이터에 임의 효과 모델을 적용하고 있습니다. 목표는 지역별 변동을 고려하여 총판 별 판매 실적을 분석하는 것입니다. 다음과 같은 변수가 있습니다. distcode: 약 800 레벨의 총판 ID region: 최상위 지리 ID (북쪽, 남쪽, 동쪽, 서쪽) zone: 중간 수준 지리 내에 region약 30 개 수준이 중첩되어 있습니다. territory: zone약 150 단계 …

12 r regression mixed-model lme4-nlme

1

히든 마르코프 모델에서 "최상의"모델을 선택하기위한 기준

데이터의 잠재 상태 수를 추정하기 위해 HMM (Hidden Markov Model)에 맞추려고하는 시계열 데이터 세트가 있습니다. 이 작업을 수행하는 의사 코드는 다음과 같습니다. for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 이제 일반적인 회귀 모델에서 BIC는 가장 …

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

1

기계 학습을 사용하여 재무 시계열을 예측하는 첫 단계 학습

기계 학습을 사용하여 미래의 재무 시계열 1 단계 이상을 예측하는 방법을 파악하려고합니다. 설명 데이터가 포함 된 재무 시계열이 있으며 모델을 구성한 다음 모델을 사용하여 n 단계를 미리 예측하고 싶습니다. 내가 지금까지 한 일은 : getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range …

12 r time-series machine-learning random-forest finance

2

R에서 lmer ()를 사용하여 Poisson GLMM에서과 분산을 테스트하는 방법은 무엇입니까?

다음과 같은 모델이 있습니다. > model1<-lmer(aph.remain~sMFS1+sAG1+sSHDI1+sbare+season+crop +(1|landscape),family=poisson) ... 이것은 요약 출력입니다. > summary(model1) Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS1 + sAG1 + sSHDI1 + sbare + season + crop + (1 | landscape) AIC BIC logLik deviance 4057 4088 -2019 4039 Random effects: …

12 r poisson-distribution lme4-nlme glmm overdispersion

5

회귀 및 분류를 모두 수행하는 R의 기능 선택 패키지

잠김 . 이 질문과 주제는 주제가 다르지만 역사적으로 중요하기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 저는 R을 처음 사용합니다. 지금 기계 학습을 배우고 있습니다. 이 질문이 매우 기본적인 것으로 보이는 경우 매우 죄송합니다. R에서 좋은 기능 선택 패키지를 찾으려고합니다. Boruta 패키지를 살펴 보았습니다. 좋은 패키지이지만 …

12 r feature-selection

2

R에서 lm과 aov의보고 된 p- 값 차이

다음 aov과 lm호출 에서 p- 값의 차이점을 설명하는 것은 무엇입니까 ? 다른 유형의 제곱합 계산으로 인해 차이가 있습니까? set.seed(10) data=rnorm(12) f1=rep(c(1,2),6) f2=c(rep(1,6),rep(2,6)) summary(aov(data~f1*f2)) summary(lm(data~f1*f2))$coeff

12 r regression anova linear-model sums-of-squares

3

임의의 포리스트를 사용하여 카운트 데이터 예측

카운트 데이터를 적절히 예측하도록 랜덤 포레스트를 훈련시킬 수 있습니까? 이것은 어떻게 진행됩니까? 나는 광범위한 값을 가지므로 분류가 실제로 의미가 없습니다. 회귀를 사용하면 결과를 간단히 자르겠습니까? 나는 여기에서 상당히 길을 잃었다. 어떤 아이디어?

12 r regression random-forest prediction count-data

1

R을 사용하여“백악관으로가는 길”을 계산하는 방법?

나는 방금 흥미롭고 아름다운이 위대한 분석을 보았습니다. http://www.nytimes.com/interactive/2012/11/02/us/politics/paths-to-the-white-house.html R을 사용하여 이러한 "경로 트리"를 어떻게 구성 할 수 있는지 궁금합니다. 이러한 경로 트리를 구성하려면 어떤 데이터와 알고리즘이 필요합니까? 감사.

12 r data-visualization politics

1

비계 절화 카운트 데이터

R에서 stl ()을 사용하여 카운트 데이터를 추세, 계절 및 불규칙 구성 요소로 분해했습니다. 결과 트렌드 값은 더 이상 정수가 아닙니다. 다음과 같은 질문이 있습니다. stl ()이 카운트 데이터를 비계 절화하는 적절한 방법입니까? 결과 추세가 더 이상 값을 가지지 않으므로 lm ()을 사용하여 추세 구성 요소를 모델링 할 수 있습니까?

12 r time-series poisson-distribution

2

랜덤 포레스트 : 변수가 중요하다는 것을 알고 있다면

임의의 포리스트가 무작위로 mtry 변수를 선택하여 각 의사 결정 트리를 작성한다는 것을 이해합니다. 따라서 mtry = ncol / 3 인 경우 각 변수는 평균적으로 나무의 1/3에서 사용됩니다. 그리고 나무의 2/3는 그것을 사용하지 않을 것입니다. 그러나 단일 변수가 매우 중요하다는 것을 알고 있다면 각 트리에서이 변수를 선택할 확률을 수동으로 높이는 것이 …

12 r random-forest parameterization

1

R에서 반복 측정 값이있는 선형 회귀

반복 측정 설계를 위해 R에서 선형 회귀를 수행하는 방법을 알 수 없었습니다. A의 이전 질문 (아직 답) 그것은 사용하지 않는 나에게 제안 된 lm혼합 모델을 사용하지 않고 있지만. 나는 lm다음과 같은 방식으로 사용 했다 : lm.velocity_vs_Velocity_response <- lm(Velocity_response~Velocity*Subject, data=mydata) (데이터 세트에 대한 자세한 내용은 위의 링크에서 찾을 수 있습니다) 그러나 …

12 r regression mixed-model repeated-measures

3

이상 감지를위한 결 측값이있는 시계열의 STL

관측치가 누락 된 일련의 기후 데이터에서 이상 값을 감지하려고합니다. 웹을 검색하면서 사용 가능한 많은 접근 방법을 찾았습니다. 이 중 stl 분해는 추세와 계절 성분을 제거하고 나머지를 연구한다는 의미에서 매력적입니다. 읽기 STL : 황토에 계절 - 트렌드 분해 절차 기반은 , stl누락 된 값에도 불구하고 적용 할 이상치의 영향을받지 가능한 가변성을 …

12 r time-series outliers missing-data

1

희소 데이터를 기반으로하는 공분산 행렬의 고유 및 svd 분해가 다른 결과를 생성하는 이유는 무엇입니까?

희소 / 갭피 데이터 세트를 기반으로 공분산 행렬을 분해하려고합니다. 로 계산 된 람다 (설명 된 분산)의 합이 svd점점 더 좁아지는 데이터로 증폭되고 있음을 알았습니다. 틈없이, svd그리고 eigen높을 동일한 결과. 이것은 eigen분해 로 발생하지 않는 것 같습니다 . svd람다 값이 항상 양수이기 때문에 사용에 기울고 있었지만이 경향은 걱정입니다. 적용해야 할 일종의 …

12 r svd eigenvalues

2

randomForest는 분류 대신 회귀를 선택합니다

R 에서 randomForest 패키지를 사용하고 홍채 데이터를 사용하는 경우 생성 된 임의 포리스트는 분류이지만 약 700 개의 기능이있는 데이터 세트 (28x28 픽셀 이미지의 각 픽셀)를 사용하면 레이블 열의 이름이 지정됩니다 label, randomForest생성 된 회귀입니다. 다음 줄을 사용하고 있습니다. rf <- randomForest(label ~ ., data=train) 분류 대신 회귀 분석이 어떻게 사용됩니까? …

12 r random-forest

1

여러 예측 변수가있는 로짓 모형에 대한 확률 곡선 그래프

다음과 같은 확률 함수가 있습니다. Prob=11+e−zProb=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} 어디 z=B0+B1X1+⋯+BnXn.z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. 내 모델은 다음과 같습니다 Pr(Y=1)=11+exp(−[−3.92+0.014×(bid)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(bid)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{bid})]\right)} 이것은 아래와 같은 확률 곡선을 통해 시각화됩니다. 원래 회귀 방정식에 몇 가지 변수를 추가하는 것을 고려하고 있습니다. 모델에 성별 …

12 r probability data-visualization logistic

«r» 태그된 질문