caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
이해할 수없는 Mann-Whitney 등급 테스트 결과를 받았습니다. 두 모집단의 중앙값은 동일합니다 (6.9). 각 모집단의 uppper와 lower Quantile은 다음과 같습니다. 6.64 및 7.2 6.60 및 7.1 이 모집단을 비교 한 검정의 결과 p- 값은 0.007입니다. 이 인구는 어떻게 크게 다를 수 있습니까? 중앙값이 확산 되었기 때문입니까? 2를 비교하는 상자 그림은 두 …
glmnetwithin caret을 사용하여 최적의 람다를 검색 cv.glmnet하고 동일한 작업을 수행하는 것을 비교하는 데 많은 혼란이있는 것 같습니다 . 다음과 같은 많은 질문이 제기되었습니다. 분류 모델 train.glmnet 대 cv.glmnet? 캐럿과 함께 glmnet을 사용하는 올바른 방법은 무엇입니까? `caret`를 사용한 교차 유효성 검사`glmnet` 그러나 질문의 재현 가능성으로 인한 답변이 없습니다. 첫 번째 질문에 …
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
정규 분포가 아닌 서수 데이터가 있으므로 Mann-Whitney U 테스트를 사용하여 비모수 테스트를 수행하기로 결정했습니다. 7 개의 점수에 대한 그룹 간 차이를보고 있습니다.이 점수는 각 과목에 대해 0, 1, 2 또는 3입니다. 데이터를 표시하는 방법을 알아내는 데 어려움을 겪고 있습니다! 중앙값 (및 중앙값의 IQR)을 사용하여 데이터를 표시 할 경우 대부분의 중앙값이 …
GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …
현재 Pearson 상관 관계에 대한 가정을 읽고 있습니다. 이어지는 t- 검정에 대한 중요한 가정은 두 변수가 정규 분포에서 나온 것 같습니다. 그렇지 않은 경우 Spearman Rho와 같은 대체 수단을 사용하는 것이 좋습니다. Spearman 상관 관계는 Pearson 상관 관계처럼 계산되며 X 및 Y 대신 X 및 Y 순위 만 사용합니다. 맞습니까? …