«stratification» 태그된 질문

샘플링 전에 모든 단위에서 알려진 특성에 따라 관심 모집단을 하위 집합 ( "층")으로 분할하는 샘플링 기술입니다.

3
계층화 된 교차 검증 이해
계층화 된 교차 검증 과 교차 검증 의 차이점은 무엇입니까 ? 위키피디아의 말 : 에서는 성층 K 배 교차 검증 평균 응답 값의 모든 폴드 대략 동일하도록, 주름이 선택된다. 이분법 적 분류의 경우, 이는 각 접힘이 두 유형의 클래스 레이블과 거의 동일한 비율을 포함한다는 것을 의미합니다. 그러나 나는 여전히 혼란 …

2
계층화 된 교차 검증을 사용하는 이유는 무엇입니까? 이것이 왜 분산 관련 혜택을 손상시키지 않습니까?
응답 클래스의 균형이 맞지 않을 때 특히 계층화 된 교차 유효성 검사를 사용하는 것이 좋습니다. 교차 검증의 한 가지 목적이 원래의 훈련 데이터 샘플의 무작위성을 설명하는 데 도움이되는 경우, 원래 훈련 세트에 대표 클래스 분포가 있는지 확실하지 않은 한 각 배에 동일한 클래스 분포를 갖는 것은 이것에 대해 작동하는 것입니다. …

1
분류에서 훈련 데이터를 생성하기위한 계층화 및 무작위 샘플링의 이점
원래 데이터 세트를 분류를위한 훈련 및 테스트 세트로 분할 할 때 무작위 샘플링 대신 계층화 샘플링을 사용하면 어떤 이점이 있는지 알고 싶습니다. 또한 계층화 된 샘플링이 무작위 샘플링보다 분류기에 더 많은 편향을 가져 옵니까? 데이터 준비를 위해 계층화 된 샘플링을 사용하려는 응용 프로그램은 2에 대해 훈련 된 Random Forests 분류기입니다.2삼2삼\frac{2}{3}원래 …

1
스트라타와 스트라타 공변량 상호 작용을 갖는 Cox 모델 피팅은 두 Cox 모델 피팅과 다른가?
에서는 회귀 모형 전략 하렐 (2 판)에 의해 단면 (S. 20.1.7)의 주요 효과 생존에서 우리는 (아래 예에서 세)과 추정 할 공변량 사이의 상호 작용을 포함 콕스 모델을 논의하고있다 주요 효과를 추정하지 않으려는 공변량 (아래 예의 성별). 구체적으로 : 모집단에서 (알 수없는, 참된) 위험 가 모형 을 따른다고 가정합니다h ( 톤 …

2
경험적 분포 대안
하사품: 아래의 견적서 를 사용하거나 언급 한 출판 된 논문에 대한 참조를 제공하는 사람에게 전체 현상금이 수여 됩니다.F~F~\tilde{F} 자극: 이 섹션은 아마도 당신에게 중요하지 않으며 나는 당신이 현상금을 얻는 데 도움이되지 않을 것이라고 생각하지만 누군가가 동기 부여에 대해 물었으므로 여기에 내가하고있는 일이 있습니다. 통계 그래프 이론 문제를 연구 중입니다. 표준 …

1
임의 포리스트 (또는 다른 분류기)를 사용한 계층화 된 분류
저는 약 60 x 1000의 행렬을 가지고 있습니다. 저는 1000 개의 특징을 가진 60 개의 물체로보고 있습니다; 60 개의 객체는 3 개의 클래스 (a, b, c)로 그룹화됩니다. 각 클래스에 20 개의 개체가 있으며 실제 분류를 알고 있습니다. 이 60 가지 교육 예제 세트에 대해지도 학습을하고 싶습니다. 분류기 정확도 (및 관련 …

2
R randomForest에서 교체를 통한 샘플링
randomForest 구현은 대체로 샘플링 할 때도 관측치 수를 넘어서 샘플링을 허용하지 않습니다. 왜 이런거야? 잘 작동합니다. rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) 내가하고 싶은 것 : rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in …

3
다단계 모델과 각 수준에 대한 별도의 모델
개별 모델과 다중 레벨 모델링을 실행할 때의 장단점은 무엇입니까? 보다 구체적으로, 한 연구에서 국가 내에 내포 된 의사의 진료 관행에 내포 된 환자를 검사했다고 가정합니다. 각 국가에 대해 별도의 모델을 실행하는 것과 3 단계 중첩 모델의 장점 / 단점은 무엇입니까?

1
Anova ()와 drop1 ()이 GLMM에 다른 답변을 제공 한 이유는 무엇입니까?
GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
분류를 위해 훈련 세트에서 중복 제거
분류 문제에 대해 많은 행이 있다고 가정 해 봅시다. 엑스1, . . .엑스엔, YX1,...XN,YX_1, ... X_N, Y 어디 엑스1, . . . ,엑스엔X1,...,XNX_1, ..., X_N 기능 / 예측 자와 와이YY 행의 기능 조합이 속한 클래스입니다. 많은 기능 조합과 해당 클래스가 데이터 세트에서 반복되어 분류기에 적합합니다. 중복을 제거 할 수 있는지 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.