통계 및 빅 데이터 r

3

팩터의 모든 레벨의 비율이 임계 값보다 작은 팩터의 레벨을 결합하는 패키지 / 함수를 R에서 실행했는지 궁금하십니까? 구체적으로, 내가 수행하는 데이터 준비의 첫 번째 단계 중 하나는 전체의 2 % 이상을 구성하지 않는 스파 스 레벨의 요소 (예 : '기타'라고 함)를 함께 축소하는 것입니다. 이것은 감독되지 않고 수행되며, 마케팅에서 일부 활동을 …

10 r many-categories

1

R에서 "glmnet"이 인터셉트에 적합합니까?

를 사용하여 R에 선형 모델을 피팅하고 glmnet있습니다. 원래 (비정규 화 된) 모델은를 사용하여 피팅되었으며 lm상수 항이 없었습니다 (예 : 형식 lm(y~0+x1+x2,data)). glmnet예측 행렬과 반응 벡터를 취합니다. 나는 glmnet문서를 읽었 으며 상수 용어에 대한 언급을 찾을 수 없습니다. 그렇다면 glmnet원점을 통해 선형 맞춤 을 요구하는 방법이 있습니까?

10 r regression lasso

1

R을 C ++로 번역 (결국 Rcpp 사용) [닫기]

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . Rcpp 사용법을 배우고 싶습니다 . 패키지의 CRAN 웹 사이트에서 문서를 살펴 보았지만 실용적인 예제 (convolve3를 고려한 두 번째 실용적인)에 대한 작업이 더 도움이 …

10 r c++

2

동 정성 가정의 (비) 모수 테스트를 언제 사용해야합니까?

동질성 가정을 테스트하는 경우, 파라 메트릭 (Bartlett Test of Homogeneity of Variances bartlett.test) 및 비모수 적 (Figner-Killeen of Homogeneity of Variances fligner.test) 테스트를 사용할 수 있습니다. 어떤 종류의 것을 사용 하는가? 예를 들어 데이터의 정규성에 의존해야합니까?

10 r variance heteroscedasticity misspecification

4

그래프에서 계곡을 찾는 방법?

나는 기본적으로 게놈의이 위치가 얼마나 잘 (또는 "깊게") 포함되어 있는지를 나타내는 기본적으로 긴 정수 목록 (수백만 값) 인 일부 게놈 범위 데이터를 조사하고 있습니다. 이 데이터에서 "밸리", 즉 주변 환경보다 "낮은"지역을 찾고 싶습니다. 내가 찾고있는 계곡의 크기는 50베이스에서 수천까지 다양합니다. 그 계곡을 찾기 위해 어떤 종류의 패러다임을 사용하고 싶습니까? 최신 …

10 r distributions statistical-significance data-visualization

2

CSV 열을 범주 형 데이터로 직접 읽을 수 있습니까?

CSV로 제공되는 의료 설문 조사 (100 + 코딩 된 열 포함)의 데이터를 R로 분석해야합니다. 초기 분석에는 딸랑이 를 사용 하지만 뒤에서 여전히 R입니다. 내가하면 read.csv () 파일, 숫자 코드로 열이 숫자 데이터로 처리됩니다. factor ()를 사용하여 범주 열을 만들 수는 있지만 100 + 열에 대해 수행하는 것은 고통 스럽습니다 . …

10 r categorical-data data-transformation

2

연속 및 이진 변수가있는 K- 최근 접 이웃

열 a b c(3 속성) 이있는 데이터 세트가 있습니다 . a반면 숫자와 연속 b과 c두 가지 수준의 각 범주입니다. K-Nearest Neighbors 방법을 사용하여 분류 a하고 b있습니다 c. 따라서 거리를 측정 할 수 있으려면 및를 b추가 b.level1하고 추가하여 데이터 세트를 변환하십시오 b.level2. 관측치 i에 b범주 의 첫 번째 수준이있는 경우 b.level1[i]=1및 …

10 r classification k-nearest-neighbour

1

예측에 임의 효과를 포함시키지 않고 혼합 효과 모델에서 예측하는 이유는 무엇입니까?

이것은 개념적 질문이지만, 내가 사용할 R때의 패키지를 참조 할 것입니다 R. 목표가 예측 목적으로 선형 모형을 적합시킨 다음 임의 효과를 사용할 수없는 위치를 예측하는 경우 혼합 효과 모형을 사용하는 이점이 있습니까? 아니면 고정 효과 모형을 대신 사용해야합니까? 예를 들어, 다른 정보와 함께 체중 대 신장에 대한 데이터가 있고를 사용하여 다음 …

10 r multiple-regression mixed-model lme4-nlme

1

lm 모델에서 학생 화 된 잔차 대 표준화 된 잔차입니까?

회귀 모형에서 "학생 잔차"와 "표준 잔차"가 동일합니까? 나는 R로 선형 회귀 모델을 만들었고 Studentized 잔차 v / s 적합치의 그래프를 그려보고 싶었지만 R에서 이것을 자동으로 수행하는 방법을 찾지 못했습니다. 모델이 있다고 가정 library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) 그런 다음을 사용 plot(lm.fit)하면 스튜던트 잔차 대 적합치의 도표가 제공되지 않지만 표준화 잔차 대 …

10 r regression residuals terminology

2

행동 순서에서 협력을 증명하는 방법

상황 : 두 마리의 새 (수컷과 암컷)는 둥지에서 알을 침입자로부터 보호합니다. 각 새는 보호를 위해 공격이나 위협을 사용할 수 있으며 존재하거나 부재 할 수 있습니다. 행동은 상호 보완적일 수있는 데이터에서 나온 패턴이 있습니다. 내 질문은 : 어떻게 그러한 협력을 통계적으로 증명 하는가? 아니면 비슷한 분석을 다루는 행동 연구를 아는 사람이 …

10 r sequence-analysis

1

감마 분포의 적합 그래프와 실제 그래프를 한 플롯에 그리는 방법은 무엇입니까?

필요한 패키지를로드하십시오. library(ggplot2) library(MASS) 감마 분포에 적합한 10,000 개의 숫자를 생성합니다. x <- round(rgamma(100000,shape = 2,rate = 0.2),1) x <- x[which(x>0)] 우리가 어느 분포 x에 적합한지를 모르는 확률 밀도 함수를 그립니다. t1 <- as.data.frame(table(x)) names(t1) <- c("x","y") t1 <- transform(t1,x=as.numeric(as.character(x))) t1$y <- t1$y/sum(t1[,2]) ggplot() + geom_point(data = t1,aes(x = x,y …

10 r mathematical-statistics goodness-of-fit gamma-distribution ggplot2

2

R의 coxph ()는 반복 측정을 어떻게 처리합니까?

문맥 R의 coxph ()가 주제 (또는 원하는 경우 환자 / 고객)에 대한 반복 입력을 허용하고 처리하는 방법을 이해하려고합니다. 어떤 사람들은 이것을 Long 형식이라고 부르고 어떤 사람들은 이것을 '반복 된 측정치'라고 부릅니다. 예를 들어 다음의 답변 섹션에 ID 열이 포함 된 데이터 세트를 참조하십시오. 시변 공변량이있는 Cox 모델을위한 최상의 패키지 또한 …

10 r repeated-measures survival cox-model frailty

1

희소성에 대한이 해석이 정확합니까?

패키지 의 removeSparseTerms기능 에 대한 문서에 따르면 tm, 이것은 희소성이 수반하는 것입니다. A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse …

10 r text-mining natural-language

1

R에서 교차 유효성 검사 올가미 회귀

R 함수 cv.glm (라이브러리 : boot)은 일반화 된 선형 모델에 대한 추정 된 K- 폴드 교차 검증 예측 오류를 계산하고 델타를 반환합니다. 올가미 회귀 (라이브러리 : glmnet)에이 함수를 사용하는 것이 이치에 맞습니까? 그렇다면 어떻게 수행 할 수 있습니까? glmnet 라이브러리는 교차 검증을 사용하여 최상의 회전 매개 변수를 얻지 만 최종 …

10 r regression cross-validation lasso glmnet

1

lsmeans는 포아송 혼합 모형 (glmer에 적합)과 같은 일반화 된 선형 모형에 대해 무엇을보고합니까?

설계된 실험에서 시선 추적 데이터를 분석하고 있습니다. 이처럼 내 데이터 외모의 단순화 된 버전 (당신은 dput을 (받을 수) 데이터 여기 ) head(lookDATA) participant fixationImage fixationCount 1 9 Automobile 81 2 9 Bird 63 3 9 Chair 82 4 9 Dog 64 5 9 Face 90 6 9 Plant 75 여기서 …

10 r mixed-model poisson-regression lsmeans lme4-nlme

«r» 태그된 질문