통계 및 빅 데이터 r

2

나는 glm.nb를 수행했다. glm1<-glm.nb(x~factor(group)) 그룹은 범주 형이고 x는 메트릭 변수입니다. 결과 요약을 얻으려고 할 때 summary()또는 사용 여부에 따라 약간 다른 결과가 나타납니다 summary.glm. summary(glm1)나에게 준다 ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . …

13 r generalized-linear-model negative-binomial

4

두꺼운 꼬리 분포에 해당하는 상자 그림?

대략 정규 분포 된 데이터의 경우 상자 그림을 사용하면 특이 치의 존재뿐만 아니라 데이터의 중앙값과 확산을 빠르게 시각화 할 수 있습니다. 그러나 더 두꺼운 꼬리 분포의 경우 특이점이 IQR의 고정 된 요인을 벗어난 것으로 정의되기 때문에 많은 점이 특이 치로 표시되며, 이는 물론 꼬리가 두꺼운 분포에서 훨씬 더 자주 발생합니다. …

13 r distributions data-visualization data-transformation ggplot2

2

선형 대 비선형 회귀

이론적으로 지수 적으로 관련된 및 값 세트가 있습니다 .y엑스xx와이yy 와이= X비y=axby = ax^b 계수를 구하는 한 가지 방법은 양쪽에 자연 로그를 적용하고 선형 모형을 피팅하는 것입니다. > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] 이것을 얻는 또 다른 방법은 이론적 인 시작 값 세트가 주어지면 비선형 …

13 r regression linear-model model-selection nonlinear-regression

1

구조 방정식 : R lavaan 패키지에서 상호 작용 효과를 지정하는 방법

R lavaan 패키지 를 사용하여 구조 방정식 모델을 추정하고 있습니다. 모델이 1 개의 잠재 성 변수와 2 개의 명시 적 설명 변수가있는 1 개의 내인성 매니페스트 변수로 구성되어 있다고 가정합니다. group = {0,1} attitude1 = latent,scale age = respondent's age 원하는 용암 모델은 다음과 같습니다 (작동하지 않음). model <- ' …

13 r interaction sem lavaan

3

R에서 가변 최대 회전 주성분을 계산하는 방법은 무엇입니까?

25 개의 변수에서 PCA를 실행하고을 사용하여 상위 7 개의 PC를 선택했습니다 prcomp. prc <- prcomp(pollutions, center=T, scale=T, retx=T) 그런 다음 해당 구성 요소에서 varimax 회전을 수행했습니다. varimax7 <- varimax(prc$rotation[,1:7]) 이제 varimax는 PCA 회전 데이터를 (varimax 객체의 일부가 아니기 때문에-로딩 행렬과 회전 행렬 만) varimax 회전하고 싶습니다. 이 작업을 수행하려면 회전 …

13 r pca factor-rotation

4

주간 평균을 보존하는 인플루엔자 데이터 보간

편집하다 필요한 절차를 정확하게 설명 하는 논문 을 찾았습니다 . 유일한 차이점은 종이가 월간 평균을 유지하면서 월간 평균 데이터를 매일 보간한다는 것입니다. 에 접근 방식을 구현하는 데 문제가 R있습니다. 모든 힌트를 부탁드립니다. 기발한 매주 다음과 같은 카운트 데이터가 있습니다 (주당 하나의 값). 의사의 상담 횟수 인플루엔자 사례 수 내 목표는 …

13 r time-series interpolation

3

R의 빅 데이터 클러스터링 및 샘플링과 관련이 있습니까?

데이터 과학을 처음 사용하고 R에서 200,000 개의 행과 50 개의 열이있는 데이터 세트에서 클러스터를 찾는 데 문제가 있습니다. 데이터에는 숫자 변수와 명목 변수가 모두 있으므로 유클리드 거리 측정을 사용하는 K- 평균과 같은 방법은 적절한 선택처럼 보이지 않습니다. 따라서 거리 매트릭스를 입력으로 받아들이는 PAM, agnes 및 hclust로 전환합니다. 데이지 방법은 혼합 …

13 r clustering sampling large-data

2

랜덤 행렬의 경우 SVD가 전혀 설명하지 않아야합니까? 내가 도대체 뭘 잘못하고있는 겁니까?

전적으로 임의의 데이터로 구성된 2 차원 행렬을 구성하면 PCA 및 SVD 구성 요소가 본질적으로 아무 것도 설명하지 않을 것입니다. 대신 첫 번째 SVD 열이 데이터의 75 %를 설명하는 것처럼 보입니다. 이것이 어떻게 가능할까요? 내가 도대체 뭘 잘못하고있는 겁니까? 줄거리는 다음과 같습니다. R 코드는 다음과 같습니다. set.seed(1) rm(list=ls()) m <- matrix(runif(10000,min=0,max=25), …

13 r pca svd

1

로지스틱 회귀 분석의 예측 이해

로지스틱 회귀 모델 (R의 glm)에서 내 예측은 예상 한대로 0과 1 사이로 제한되지 않습니다. 로지스틱 회귀 분석에 대한 나의 이해는 입력 및 모델 매개 변수가 선형으로 결합되고 로짓 링크 함수를 사용하여 반응이 확률로 변환된다는 것입니다. 로짓 함수는 0과 1 사이에 경계가 있기 때문에 예측이 0과 1 사이에 경계가있을 것으로 예상했습니다. …

13 r regression logistic generalized-linear-model

2

연속 시간 종 이진 반응을위한 R 패키지가 있습니까?

이 bild패키지는 직렬 이진 응답을위한 훌륭한 패키지 인 것으로 보입니다. 그러나 별개의 시간이다. 나는 이전에 측정 된 이진 반응 또는 적어도 이것의 1 차 Markov 버전으로 현재 응답 Y의 승산 비 연결에 매끄러운 시간 함수를 지정하고 싶습니다. 이것을 이것을 로지스틱 로지스틱 회귀라고합니다. 누구든지 연속 시간을 처리하는 R 패키지를 알고 있습니까? …

13 r repeated-measures binary-data panel-data

2

R의 확률 미분 방정식에 대한 수치 솔버가 있습니까?

나는 Euler-Maruyama 체계, Milstein 체계 (또는 다른 것)를 사용하여 (1)과 같은 비균질 비선형 확산으로부터 경로를 시뮬레이션하기위한 일반적이고 깨끗하고 빠른 (즉, C ++ 루틴 사용) R 패키지를 찾고 있습니다. 이것은 더 큰 추정 코드에 포함되어야하므로 최적화 될 가치가있다. 디엑스티= f( θ , t , X티)디t + g( θ , t , …

13 r simulation stochastic-processes markov-process

1

선형 회귀 및 공간 자기 상관

원격 감지를 통해 얻은 일부 변수를 사용하여 특정 지역의 나무 높이를 예측하고 싶습니다. 대략적인 바이오 매스 등과 같이 먼저 선형 회귀를 사용하고 싶습니다 (최상의 아이디어는 아니지만 프로젝트의 필수 단계 임). 공간 자기 상관이 얼마나 심하게 영향을 미칠 수 있는지 그리고 가능한 경우이를 수정하는 가장 쉬운 방법이 무엇인지 알고 싶었습니다. 그건 …

13 r multiple-regression spatial autocorrelation

3

PCA의 구성 요소가 실제로 분산의 백분율을 나타 냅니까? 100 % 이상으로 합산 할 수 있습니까?

O'Reilly의 "해커를위한 기계 학습"에 따르면 각 주요 구성 요소는 분산의 백분율을 나타냅니다. 아래 페이지의 관련 부분을 인용했습니다 (8 장, 207 페이지). 다른 전문가와 이야기하면서, 그들은 그것이 백분율이라고 동의했습니다. 그러나 24 개 구성 요소의 합계는 133.2095 %입니다. 어떻게 그렇게 될수 있니? 우리가 PCA를 사용할 수 있다고 확신 한 후에 R에서 어떻게 …

13 r pca

1

베이지안 glm의

여기서 데이터에 베이지안 로짓을 실행하려고합니다 . R의 패키지에서 사용 bayesglm()하고 있습니다 arm. 코딩은 간단합니다. df = read.csv("http://dl.dropbox.com/u/1791181/bayesglm.csv", header=T) library(arm) model = bayesglm(PASS ~ SEX + HIGH, family=binomial(link="logit"), data=df) summary(model) 다음과 같은 출력을 제공합니다. Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.10381 0.10240 1.014 0.311 SEXMale 0.02408 0.09363 0.257 0.797 …

13 r bayesian p-value

2

그룹화 된 쌍을 보여주는 표에서 Tukey HSD 사후 테스트 결과를 얻는 방법은 무엇입니까?

R과 함께 양방향 Anova 후 TukeyHSD 사후 테스트를 수행하여 중요한 차이로 그룹화 된 정렬 쌍을 포함하는 테이블을 얻고 싶습니다. (언어에 대해 미안하지만, 나는 여전히 통계에 익숙하지 않다.) 나는 이와 같은 것을 갖고 싶다 : 따라서 별이나 문자로 그룹화됩니다. 어떤 생각? 패키지 에서 함수 HSD.test()를 테스트 agricolae했지만 양방향 테이블을 처리하지 않는 …

13 r anova multiple-comparisons post-hoc tukey-hsd

«r» 태그된 질문