«many-categories» 태그된 질문

수준이 많은 범주 형 변수 및 이러한 변수로 작업하기위한 통계 방법 (예 : 융합 올가미).

6
여러 수준의 범주 형 변수를 축소하는 주요 방법은 무엇입니까?
통계 모델에서 여러 범주를 입력 (예측 자)으로 사용하기 위해 여러 범주를 축소 (또는 풀링)하는 데 사용할 수있는 기술은 무엇입니까? 대학생 전공 (학부생이 선택한학과) 과 같은 변수를 고려하십시오 . 순서가없고 범주 형이지만 수십 가지의 고유 한 수준을 가질 수 있습니다. 회귀 모델에서 메이저를 예측 변수로 사용하고 싶다고 가정 해 봅시다. 모델링을 …

6
많은 범주 형 변수로 분류 개선
200,000 개 이상의 샘플과 샘플 당 약 50 개의 기능으로 데이터 세트를 작성하고 있습니다. 10 개의 연속 변수와 다른 40 개는 범주 형 변수 (국가, 언어, 과학 분야 등)입니다. 이러한 범주 형 변수의 경우 예를 들어 150 개의 다른 국가, 50 개의 언어, 50 개의 과학 분야 등이 있습니다. 지금까지 …

6
파이 차트 문제
파이 차트에 대한 토론이 증가하고있는 것 같습니다. 이에 대한 주요 주장은 다음과 같습니다. 면적은 길이보다 전력이 적습니다. 파이 차트는 데이터 대 픽셀 비율이 매우 낮습니다. 그러나 비율을 묘사 할 때 어떻게 든 유용 할 수 있다고 생각합니다. 대부분의 경우 테이블을 사용하는 데 동의하지만 비즈니스 보고서를 작성할 때 원형 차트가없는 수백 …

7
기계 학습 모델 또는 추천 시스템에서 지리 또는 우편 번호를 나타내는 방법은 무엇입니까?
모델을 작성 중이며 지리적 위치가 타겟 변수를 예측하는 데 매우 적합하다고 생각합니다. 각 사용자의 우편 번호가 있습니다. 그래도 모델에서 우편 번호를 예측 기능으로 포함시키는 가장 좋은 방법은 확실하지 않습니다. 우편 번호는 숫자이지만 숫자가 올라가거나 내려 가면 아무 의미가 없습니다. 30,000 개의 우편 번호를 모두 이진화 한 다음 기능이나 새 열로 …

5
R의 randomForest는 32 개 이상의 레벨을 처리 할 수 ​​없습니다. 해결 방법은 무엇입니까?
R의 randomForest 패키지는 32 개 이상의 레벨을 가진 요인을 처리 할 수 ​​없습니다. 32 개 이상의 레벨이 제공되면 오류 메시지가 나타납니다. 범주가 32 개 이상인 범주 형 예측 변수를 처리 할 수 ​​없습니다. 그러나 내가 가지고있는 데이터에는 몇 가지 요소가 있습니다. 그들 중 일부는 1000 + 레벨을 가지고 있고 일부는 …

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
모든 가능성이 혼합 효과 모델에 포함 된 경우 고정 효과 대 임의 효과
혼합 효과 모델에서는 모든 가능한 수준 (예 : 남성과 여성 모두)이 포함 된 경우 고정 효과를 사용하여 매개 변수를 추정하는 것이 좋습니다. 포함 된 수준이 모집단의 무작위 표본 (가능한 환자의 우주에서 등록 된 환자)이고 평균 대신 모집단 평균 및 분산을 추정하려는 경우 무작위 효과를 사용하여 변수를 설명하는 것이 좋습니다. 개별 …

2
기계 학습을 위해 범주 형 기능을 숫자로 인코딩
신경망과 같은 많은 기계 학습 알고리즘은 숫자를 처리 할 것으로 예상합니다. 따라서 범주 형 데이터가 있으면 변환해야합니다. 범주 적으로 말하자면, 예를 들어 : 자동차 브랜드 : Audi, BMW, Chevrolet ... 사용자 ID : 1, 25, 26, 28 ... 사용자 ID는 숫자이지만 레이블 일 뿐이며 연령이나 금액과 같은 연속성 측면에서 아무 …

2
순서 또는 명목 데이터에서 범주를 병합 / 축소하는 방법은 무엇입니까?
명목 또는 서수 데이터에서 범주 수를 줄이는 방법을 찾기 위해 고심하고 있습니다. 예를 들어, 여러 명목 및 순서 요인이있는 데이터 집합에 회귀 모델을 작성한다고 가정 해 보겠습니다. 이 단계에는 아무런 문제가 없지만, 종종 공칭 기능이 훈련 세트에서 관찰되지 않지만 유효성 검사 데이터 세트에 존재하는 상황이 자주 발생합니다. 이로 인해 모델에 …

1
R-자유도에서 PROC Mixed과 lme / lmer의 차이점
참고 :이 질문은 법적 이유로 인해 이전 질문을 삭제해야했기 때문에 다시 게시되었습니다. SAS의 PROC MIXED를 R lme의 nlme패키지 기능과 비교하는 동안 다소 혼란스러운 차이점을 발견했습니다. 구체적으로는, 다른 시험에서 자유도간에 상이 PROC MIXED하고 lme, 그리고 왜 생각해. 다음 데이터 세트에서 시작하십시오 (아래 제공된 R 코드). ind : 측정 대상을 나타내는 계수 …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
비 순차 범주 형 예측 변수의 수준 수 감소
SVM, 임의 포리스트 또는 다른 분류기를 말하는 분류기를 훈련시키고 싶습니다. 데이터 세트의 기능 중 하나는 1000 수준의 범주 형 변수입니다. 이 변수의 레벨 수를 줄이는 가장 좋은 방법은 무엇입니까? R에는 드문 수준을 결합 combine.levels()하는 Hmisc 패키지 에서 호출되는 기능이 있지만 다른 제안을 찾고있었습니다.

3
one-hot 인코딩과 더미 인코딩의 문제
k 레벨의 범주 변수가 더미 인코딩에서 k-1 변수로 인코딩되어야한다는 사실을 알고 있습니다 (다중 값 범주 변수의 경우와 유사). 다른 회귀 방법, 주로 선형 회귀, 페널티 선형 회귀 (Lasso, Ridge, ElasticNet), 트리 기반 (임의 포리스트) , 그래디언트 부스팅 머신). 선형 회귀에서 다중 공선 성 문제가 발생한다는 것을 알고 있습니다 (실제로 아무런 …

3
데이터 마이닝을위한 요소 수준을 결합하기위한 R 패키지?
팩터의 모든 레벨의 비율이 임계 값보다 작은 팩터의 레벨을 결합하는 패키지 / 함수를 R에서 실행했는지 궁금하십니까? 구체적으로, 내가 수행하는 데이터 준비의 첫 번째 단계 중 하나는 전체의 2 % 이상을 구성하지 않는 스파 스 레벨의 요소 (예 : '기타'라고 함)를 함께 축소하는 것입니다. 이것은 감독되지 않고 수행되며, 마케팅에서 일부 활동을 …

1
범주 형 데이터에 대해 벌칙을 적용하는 방법 : 요인의 수준 결합
처벌 모델은 매개 변수 수가 샘플 크기와 같거나 그보다 큰 모델을 추정하는 데 사용할 수 있습니다. 이 상황은 범주 형 또는 개수 데이터의 큰 희소 테이블의 로그 선형 모델에서 발생할 수 있습니다. 이러한 설정에서 다른 수준과 상호 작용하는 방식에서 해당 수준을 구별 할 수없는 요인 수준을 결합하여 표를 축소하는 것이 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.