통계 및 빅 데이터 r

3

R lm()에서 다음과 같은 방법으로 함수를 호출하면 lm.1 = lm(response ~ var1 + var2 + var1 * var2) summary(lm.1) 이것은 나에게로 응답 변수의 선형 모델을 제공 var1, var2그들 사이의 상호 작용을. 그러나 상호 작용 항을 정확히 수치 적으로 해석하는 방법은 무엇입니까? 문서는 이것이 var1와 사이의 "십자가"라고 말하지만 var2정확히 "십자가"가 무엇인지는 …

9 r regression

1

로지스틱 회귀 모형 변수의 p- 값 의미

그래서 나는 R에서 로지스틱 회귀 모델을 사용하고 있습니다. 통계에 익숙하지 않지만 지금까지 회귀 모델에 대해 약간의 이해가 있다고 생각하지만 여전히 나를 귀찮게하는 것이 있습니다. 링크 된 그림을 보면 내가 만든 예제 모델에 대한 요약 R 인쇄가 표시됩니다. 데이터 세트의 이메일이 다시 발견되거나 (이진 변수 isRefound) 데이터 세트와 관련이있는 두 개의 …

9 r regression logistic p-value interpretation

2

계절 성과 트렌드, 이상한 결과를 가진 ARIMA 예측

ARIMA 모델을 사용하여 예측을 진행하면서 계절 성과 드리프트에 맞는 ARIMA를 기반으로 예측을 개선 할 수있는 방법을 이해하려고합니다. 내 데이터는 다음과 같은 시계열입니다 (3 년 동안 명확한 추세와 눈에 띄는 계절성이 있으며 지연 12, 24, 36에서 자기 상관으로 지원되지 않는 것 같습니다 ??). > bal2sum3years.ts Jan Feb Mar Apr May Jun …

9 r time-series forecasting arima seasonality

1

한 수준과 다른 수준의 평균 차이에 대해 대비 행렬 (R)을 지정하는 방법은 무엇입니까?

다음과 같은 회귀 모델이 있습니다Y=β0+β1X1+β2X2+β3X3+β12X1X2+β13X1X3+β123X1X2X3Y=β0+β1X1+β2X2+β3X3+β12X1X2+β13X1X3+β123X1X2X3Y = \beta_0+\beta_1X_1 + \beta_2X_2 + \beta_3X_3 +\beta_{12}X_1X_2+\beta_{13}X_1X_3+\beta_{123}X_1X_2X_3 ... 또는 R 표기법 : y ~ x1 + x2 + x3 + x1:x2 + x1:x3 + x1:x2:x3 과 가 범주 형 변수이고 이 숫자 라고 가정 해 봅시다 . 그 합병증이다 세 단계를 갖는다 대신 표준 대조는, …

9 r contrasts

3

k- 평균에 대한 군집 선택 : 1 군집 사례

kmeans를 사용한 클러스터링이 적절한 지 판단하는 좋은 방법을 아는 사람이 있습니까? 즉, 샘플이 실제로 균질 한 경우 어떻게해야합니까? 혼합 모델 (R의 mclust를 통해)이 1 : k 클러스터 사례에 적합한 통계를 제공한다는 것을 알고 있지만, kmeans를 평가하는 모든 기술은 최소 2 개의 클러스터가 필요한 것처럼 보입니다. 누구든지 kmeans에 대한 1 및 …

9 r clustering k-means

1

범주 형 변수를 사용하여 로지스틱 회귀 분석을위한 데이터 시뮬레이션

로지스틱 회귀 분석을위한 테스트 데이터를 만들려고했는데이 게시물을 찾았습니다. 로지스틱 회귀 분석을 위해 인공 데이터를 시뮬레이션하는 방법은 무엇입니까? 좋은 대답이지만 연속 변수 만 만듭니다. 링크에서와 동일한 예에서 y와 연관된 5 단계 (ABCDE)를 갖는 범주 형 변수 x3은 어떻습니까?

9 r logistic simulation

3

행렬 곱셈을 사용하여 이진 데이터에 대한 Jaccard 또는 기타 연관 계수 계산

행렬 곱셈을 사용하여 Jaccard 계수를 계산할 수있는 방법이 있는지 알고 싶습니다. 이 코드를 사용했습니다 jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } 이것은 R에서 …

9 r matrix binary-data association-measure similarities

1

알 수없는 p- 값 계산

나는 최근에 R 스크립트를 디버깅하고 있었고 매우 이상한 것을 발견했습니다. 저자는 자신의 p- 값 함수를 정의했습니다. pval <- function(x, y){ if (x+y<20) { # x + y is small, requires R.basic p1<- nChooseK(x+y,x) * 2^-(x+y+1); p2<- nChooseK(x+y,y) * 2^-(x+y+1); pvalue = max(p1, p2) } else { # if x+y is …

9 r hypothesis-testing p-value

2

R의 간격 검열 콕스 비례 위험 모델

간격 검열 생존 시간이 주어지면 어떻게 간격 검열 Cox PH 모델을 수행 R합니까? rseek 검색은 패키지를 켜고 intcox더 이상 R저장소에 없습니다. 패키지 의 coxph함수가 survival간격 검열 생존 데이터를 처리 할 수 없다고 거의 긍정적 입니다. 또한 데이터를 무시하고 coxph함수 를 사용하고 싶지 않습니다 . 이 방법은 구간 검열의 불확실성을 무시하기 …

9 r survival cox-model interval-censoring

2

R에서 간단한 지수 평활을 어떻게 사용합니까?

나는 R의 초보자 해요, 당신은 R의 예측 패키지에 SES를 사용하는 방법에 대해 설명시겠습니까 예측 ? 초기 기간 수와 스무딩 상수를 선택하고 싶습니다. d <- c(3,4,41,10,9,86,56,20,18,36,24,59,82,51,31,29,13,7,26,19,20,103,141,145,24,99,40,51,72,58,94,78,11,15,17,53,44,34,12,15,32,14,15,26,75,110,56,43,19,17,33,26,40,42,18,24,69,18,18,25,86,106,104,35,43,12,4,20,16,8) 70 개의 기간이 있는데 초기에 40 개의 기간을 사용하고 샘플에서 30 개를 사용하고 싶습니다. ses(d, h=30, level=c(80,95), fan=FALSE,initial=c("simple"), alpha=.1) 맞습니까?

9 r time-series forecasting

4

회귀 분석을위한 Box Cox 변환

하나의 예측 변수 (예 : (x, y))로 일부 데이터에 선형 모델을 맞추려고합니다. 데이터는 x의 작은 값에 대해 y 값이 직선에 꼭 맞지만 x 값이 증가함에 따라 y 값이 더욱 변동 적입니다. 다음은 그러한 데이터의 예입니다 (R 코드). y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) 아래 그림과 같이 단순히 선형 맞춤을 수행하는 …

9 r regression variance data-transformation

4

시계열에서 20 년 동안의 일일 데이터를 그리는 방법

https://dl.dropbox.com/u/22681355/ORACLE.csv 데이터 세트가 있으며 'Date'로 'Open'의 일일 변경 사항을 플로팅하려고하므로 다음을 수행했습니다. oracle <- read.csv(file="http://dl.dropbox.com/u/22681355/ORACLE.csv", header=TRUE) plot(oracle$Date, oracle$Open, type="l") 그리고 나는 다음을 얻는다 : 이제 이것은 분명히 가장 좋은 플롯이 아니므로 자세한 데이터를 그릴 때 올바른 방법이 무엇인지 궁금합니다.

9 r data-visualization

2

모델 선택 절차에 대한 정규 계산 및 해석, 하위 집합 계산 문제

를 사용하여 모델을 선택하고 싶습니다 regsubsets(). olympiadaten (데이터 업로드 : http://www.sendspace.com/file/8e27d0 ) 이라는 데이터 프레임이 있습니다 . 먼저이 데이터 프레임을 첨부 한 다음 분석을 시작합니다. 내 코드는 다음과 같습니다. attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + Schoolyears + ExpMilitary + Mortality + PopPoverty + PopTotal …

9 r multiple-regression model-selection

2

그룹에서 가장 큰 기여자를 결정

나는 통계에 대해 잘 모르므로 나와 함께 견뎌야합니다. 1000 명의 근로자가 있다고 가정 해 봅시다. 나는 가장 열심히 일하는 사람이 누구인지 알아 내고 싶지만, 1 시간에서 100 시간 동안 일한 그룹의 작업량 만 측정 할 수 있습니다. 각 근로자가 항상 같은 양의 작업을 수행한다고 가정하면, 많은 시련과 조합을 통해 가장 …

9 r regression data-mining

3

발생률 비교

두 그룹 사이의 발병률을 비교하고 싶습니다 (하나는 질병이없고 다른 하나는). 입사 률 비율 (IRR), 즉 입사 율 그룹 B / 발생률 그룹 A를 계산 한 다음이 비율이 1과 같은지 테스트 한 후 마지막으로 IRR의 95 % CI 간격을 계산하려고했습니다. 책에서 95 % CI를 계산하는 방법을 찾았습니다 (Rosner 's Fundamentals of …

9 r poisson-distribution epidemiology incidence-rate-ratio

«r» 태그된 질문