통계 및 빅 데이터 r

1

내 질문은 geoR:::.negloglik.GRF또는 에서 악용 된 계산 기술과 관련이 geoR:::solve.geoR있습니다. 선형 혼합 모델 설정에서 : 여기서 와 는 각각 고정 및 랜덤 효과입니다. 또한β b Σ = cov ( Y )와이= Xβ+ Zb + eY=Xβ+Zb+e Y=X\beta+Zb+e ββ\beta비bbΣ = 코브 ( Y)Σ=cov(Y)\Sigma=\text{cov}(Y) 효과를 추정 할 때, 계산에 필요가있다 일반적으로 같은 것을 …

13 r eigenvalues matrix-decomposition matrix-inverse cholesky

2

R을 이용한 시계열 분석 절차 및 방법

앞으로 6 개월 동안 원자재 (석유, 알루미늄, 주석 등)의 가격을 예측하려는 소규모 프로젝트를 진행하고 있습니다. 예측할 12 가지 변수가 있으며 2008 년 4 월-2013 년 5 월의 데이터가 있습니다. 예측은 어떻게해야합니까? 나는 다음을 수행했다. 시계열 데이터 세트로 가져온 데이터 모든 변수의 계절성은 추세에 따라 달라지는 경향이 있으므로 곱셈 모델을 사용하겠습니다. …

13 r time-series forecasting neural-networks arima

1

R : 선형 모형 잔차의 정규성을 테스트-사용할 잔차

정규성을 확인하기 위해 선형 모형의 잔차에 대해 Shapiro Wilk의 W 검정 및 Kolmogorov-Smirnov 검정을 수행하고 싶습니다. 원시 잔차, Pearson 잔차, 학생 잔차 또는 표준화 잔차에 대해 어떤 잔차를 사용해야하는지 궁금합니다. Shapiro-Wilk의 W 테스트의 경우 원시 및 Pearson 잔차에 대한 결과는 동일하지만 다른 결과는 그렇지 않은 것으로 보입니다. fit=lm(mpg ~ 1 …

13 r regression residuals normality-assumption lm

1

관측치가 독립적이지 않은 경우 잘못된 추론

나는 기본적인 선형 모델에서 추론이 유효하기 위해서는 관측이 독립적이어야한다는 기초 통계에서 배웠다. 클러스터링이 발생하면이를 고려하지 않는 한 더 이상 독립성이 더 이상 유효하지 않은 추론으로 이어질 수 없습니다. 이러한 클러스터링을 설명하는 한 가지 방법은 혼합 모델을 사용하는 것입니다. 시뮬레이션 여부에 관계없이 예제 데이터 세트를 찾고 싶습니다. 클러스터 된 데이터를 분석하기 …

13 r mixed-model inference independence

2

캐럿 패키지를 사용하면 특정 임계 값에 대한 혼동 행렬을 얻을 수 있습니까?

train이항 반응에 대한 로지스틱 회귀 모델 (via )을 얻었으며 confusionMatrixin에서 로지스틱 혼동 행렬을 얻었 습니다 caret. 물류 모델 혼동 행렬을 제공하지만 어떤 임계 값을 얻는 데 사용되는지 확실하지 않습니다. confusionMatrix에서를 사용하여 특정 임계 값에 대한 혼동 행렬을 얻으려면 어떻게해야 caret합니까?

13 r classification roc caret confusion-matrix

1

분포가 전력 법을 따르는 지 테스트하는 방법?

몇 명의 사용자가 몇 개의 질문을 게시하는지에 대한 데이터가 있습니다. 예를 들어 [UserCount, QuestionCount] [2, 100] [9, 10] [3, 80] ... ... 이는 2 명의 사용자가 각각 100 개의 질문을 게시하고 9 명의 사용자가 각각 10 개의 질문을 게시하는 등을 의미합니다. 그렇다면 UserCount, QuestionCount분포가 전력 법을 따르는 지 어떻게 알 …

13 r hypothesis-testing goodness-of-fit power-law

2

회귀를 피팅 할 때 직교 다항식을 사용하지 않는 이유가 있습니까?

일반적으로 고차 변수로 회귀를 피팅 할 때 직교 다항식을 사용하지 않는 것이 더 좋은지 궁금합니다. 특히 R을 사용하는 것이 궁금합니다. 만약 poly()에 raw = FALSE같은 장착 값을 생성 poly()과 raw = TRUE, 그리고 poly함께 raw = FALSE해결할 수있는 문제 다항식 회귀와 관련된 문제 중 일부는 다음해야 poly()와 raw = FALSE …

13 r regression polynomial

1

R의 lm ()이 교과서와 다른 계수 추정치를 반환하는 이유는 무엇입니까?

배경 모델 피팅에 대한 과정에서 첫 번째 예 를 이해하려고합니다 (따라서 간단하게 보일 수 있습니다). 손으로 계산을 수행했으며 예제와 일치하지만 R에서 반복하면 모델 계수가 해제됩니다. 차이점은 모집단 분산 ( )을 사용하는 교과서 때문일 수 있다고 생각 했지만 R은 샘플 분산 ( )을 사용하고있을 수 있지만 계산에서 사용되는 위치를 볼 수는 …

13 r regression self-study lm

2

데이터를 대치하거나 주변 데이터를 찾는 데 인접 정보 사용 (R)

가장 가까운 이웃이 가장 좋은 예측 변수라는 가정하에 데이터 세트가 있습니다. 양방향 그래디언트의 완벽한 예 값이 거의없는 경우가 있다고 가정하고 이웃과 추세를 기반으로 쉽게 예측할 수 있습니다. R의 해당 데이터 매트릭스 (운동의 더미 예) : miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) …

13 r prediction outliers data-imputation multiple-imputation

1

모형에 척도 데이터가 적합했을 때 예측을하기 위해 새로운 관측치를 축척하는 방법

선형 회귀 모델에 사용하기 위해 데이터 매트릭스를 스케일링하는 개념을 이해합니다. 예를 들어 R에서는 다음을 사용할 수 있습니다. scaled.data <- scale(data, scale=TRUE) 내 유일한 질문은 출력 값을 예측하려는 새로운 관찰에 대해 어떻게 정확하게 스케일링되는 것입니까? 그럴까요 scaled.new <- (new - mean(data)) / std(data)?

13 r regression prediction scales

3

Lindsay Smith의 튜토리얼을 사용하여 R에서 PCA를 단계별로 구현

Lindsay I Smith 의 훌륭한 PCA 튜토리얼을 통해 R에서 일하고 있으며 마지막 단계에 갇혀 있습니다. 아래의 R 스크립트는 원래 데이터가 (이 경우 단수) Principal Component에서 재구성되는 단계 (p.19)로 이동하여 PCA1 축을 따라 직선 플롯을 생성합니다 2 차원 만 있고, 2 차원은 의도적으로 떨어집니다). d = data.frame(x=c(2.5,0.5,2.2,1.9,3.1,2.3,2.0,1.0,1.5,1.1), y=c(2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9)) # mean-adjusted values …

13 r pca

3

두 개의 비정규 분포가 다른지 어떻게 테스트합니까?

Student 's t-test에 대해 읽었지만 원래 분포가 정상적으로 분포되어 있다고 가정 할 때 효과가있는 것으로 보입니다. 내 경우에는 분명히 그렇지 않습니다. 또한 분포가 13 개인 경우 13^2테스트 를 수행해야 합니까?

13 r hypothesis-testing distributions

2

매번 다른 값을 반환하는 R의 Dunnett 테스트

Dunnett의 테스트를 계산하기 위해 R 'multcomp'라이브러리 ( http://cran.r-project.org/web/packages/multcomp/ )를 사용하고 있습니다. 아래 스크립트를 사용하고 있습니다. Group <- factor(c("A","A","B","B","B","C","C","C","D","D","D","E","E","F","F","F")) Value <- c(5,5.09901951359278,4.69041575982343,4.58257569495584,4.79583152331272,5,5.09901951359278,4.24264068711928,5.09901951359278,5.19615242270663,4.58257569495584,6.16441400296898,6.85565460040104,7.68114574786861,7.07106781186548,6.48074069840786) data <- data.frame(Group, Value) aov <- aov(Value ~ Group, data) summary(glht(aov, linfct=mcp(Group="Dunnett"))) 이제 R 콘솔을 통해이 스크립트를 여러 번 실행하면 매번 약간 다른 결과가 나타납니다. 예를 들면 다음과 같습니다. …

13 r multiple-comparisons

2

차별화 된 시리즈의 ARIMA vs ARMA

R (2.15.2)에서는 시계열에 ARIMA (3,1,3)를 한 번, 한 번 다른 시계열에 ARMA (3,3)를 한 번 장착했습니다. ARIMA의 피팅 방법으로 인해 피팅 매개 변수가 다릅니다. 또한 ARMA (3,3)과 동일한 데이터에 ARIMA (3,0,3)를 피팅하면 내가 사용하는 피팅 방법에 관계없이 동일한 매개 변수가 생성되지 않습니다. ARMA에서와 동일한 피팅 계수를 얻기 위해 ARIMA에 맞는 …

13 r time-series arima fitting arma

1

로지스틱 회귀 모형 평가

나는 물류 모델을 연구하고 있으며 결과를 평가하는 데 어려움을 겪고 있습니다. 내 모델은 이항 로짓입니다. 내 설명 변수는 15 레벨의 범주 변수, 이분법 변수 및 2 개의 연속 변수입니다. 내 N은 8000보다 큽니다. 투자하려는 기업의 결정을 모형화하려고합니다. 종속 변수는 투자 (예 / 아니오)이며 15 단계 변수는 관리자가보고 한 투자에 다른 …

13 r logistic goodness-of-fit roc

«r» 태그된 질문