«categorical-data» 태그된 질문

범주 형 (명목이라고도 함) 데이터는 범주라고하는 제한된 수의 값을 취할 수 있습니다. 범주 형 값 "label"은 "측정"되지 않습니다. 불연속이지만 주문 된 데이터 유형에는 [ordinal-data] 태그를 사용하십시오.

2
R을 사용하여“병렬 세트”플롯을 만들 수 있습니까?
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. Tormod 질문 ( 여기에 게시 됨 ) 덕분에 Parallel Sets 플롯을 발견했습니다. 다음은 그 모습을 보여주는 예입니다. (타이타닉 데이터 셋의 시각화입니다. 예를 들어, 살아남지 못한 대부분의 여성이 세 번째 …

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
명목 / 범주 데이터에 대한“더미 변수”대“표시기 변수”
"더미 변수"및 "표시기 변수" 는 0/1 코딩 범주의 멤버 자격을 설명하기 위해 자주 사용되는 용어 레이블입니다. 일반적으로 0 : 범주의 구성원이 아님, 1 : 범주의 구성원. 2014 년 11 월 26 일에 Scholar.google.com (빠른 따옴표 포함)을 빠르게 검색하면 약 318,000 개의 기사에 "더미 변수"가 사용되고 약 112,000 개의 기사에 "인디케이터 …

1
귀무 가설 하에서 교환 가능한 샘플의 직관은 무엇입니까?
순열 검정 (랜덤 화 검정, 재 랜덤 화 검정 또는 정확한 검정이라고도 함)은 매우 유용하며, 예를 들어 요구되는 정규 분포 가정이 t-test충족되지 않고 순위에 따라 값을 변환 할 때 유용합니다. 비모수 테스트 Mann-Whitney-U-test는 더 많은 정보가 손실 될 수 있습니다. 그러나 이러한 종류의 테스트를 사용할 때 단 하나의 가정 만 …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
연속 및 이진 데이터를 선형 SVM과 혼합합니까?
그래서 나는 SVM을 가지고 놀고 있었고 이것이 좋은 일인지 궁금합니다. 연속 기능 (0 ~ 1) 세트와 더미 변수로 변환 된 범주 기능 세트가 있습니다. 이 특별한 경우에는 측정 날짜를 더미 변수로 인코딩합니다. 데이터를 보유한 기간은 3 가지이며 3 개의 기능 번호를 예약했습니다. 20:21:22 : 따라서 데이터가 나오는 기간에 따라 다른 …

2
R에서 더미 코딩 대신 효과 코딩으로 회귀를 수행하는 방법은 무엇입니까?
현재 범주 형 / 요인 변수 만 독립 변수로 사용하는 회귀 모델을 작성 중입니다. 내 종속 변수는 로짓 변환 비율입니다. R이 "인자"유형 인 즉시 인형을 코딩하는 방법을 자동으로 알기 때문에 R에서 정상적인 회귀를 실행하는 것은 매우 쉽습니다. 그러나 이러한 유형의 코딩은 또한 각 변수에서 하나의 범주가 기준으로 사용되어 해석하기 어렵다는 …

1
glmnet 로지스틱 회귀 분석은 더미 변수없이 요인 (범주) 변수를 직접 처리 할 수 ​​있습니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 삼년 전에 . 나는 기능 LASSO 방법을 사용하여 R에 로지스틱 회귀 분석을 짓고 있어요 cv.glmnet을 선택 lambda하고 glmnet최종 모델. 자동 모델 선택과 관련된 모든 단점을 이미 알고 …


2
지속적인 데이터에서 범주 형으로가는 것이 항상 잘못입니까?
데이터를 설정하는 방법에 대해 읽을 때 자주 접하는 한 가지 점은 일부 연속 데이터를 범주 형 데이터로 변환하는 것은 좋은 생각이 아니라는 것입니다. 임계 값이 잘못 결정되면 잘못 결론을 내릴 수 있기 때문입니다. 그러나 현재 일부 데이터 (전립선 암 환자의 PSA 값)가 있습니다. 여기서 일반적인 합의는 4 세 미만이면 아마도 …

3
변수 중 하나가 범주 형인 경우 상관 관계가 그다지 유용하지 않은 이유는 무엇입니까?
이것은 약간의 직감 ​​검사입니다.이 개념을 오해하고 있는지, 어떤 식으로인지 이해하도록 도와주세요. 상관 관계에 대한 기능적 이해가 있지만 기능 이해의 배후에있는 원칙을 자신있게 설명 할 수있는 약간의 이해가 필요합니다. 내가 이해하는 바와 같이, 통계적 상관 관계는 (보다 일반적인 용어 사용과는 달리) 두 가지 연속 변수 와 변수 가 비슷한 방식으로 상승 …


1
범주 형 변수 (R)에 사용할 수있는 다양한 코딩 유형은 무엇이며 언제 사용합니까?
선형 모델 또는 혼합 모델에 적합하면 범주 형 또는 명목 형 변종을 더미 콘딩 (R 기본값) 및 효과 코딩과 같이 매개 변수가 추정되는 여러 변수로 변환하는 데 사용할 수있는 다양한 유형의 코딩이 있습니다. 상호 작용이있을 때 효과 코딩 (때로는 편차 또는 대비 코딩이라고 함)이 선호된다고 들었지만 가능한 대비는 언제이며 어떤 …

2
순서 또는 명목 데이터에서 범주를 병합 / 축소하는 방법은 무엇입니까?
명목 또는 서수 데이터에서 범주 수를 줄이는 방법을 찾기 위해 고심하고 있습니다. 예를 들어, 여러 명목 및 순서 요인이있는 데이터 집합에 회귀 모델을 작성한다고 가정 해 보겠습니다. 이 단계에는 아무런 문제가 없지만, 종종 공칭 기능이 훈련 세트에서 관찰되지 않지만 유효성 검사 데이터 세트에 존재하는 상황이 자주 발생합니다. 이로 인해 모델에 …


3
로지스틱 회귀 분석에서 WoE (증거의 무게)로 변수 바꾸기
이것은 내 동료들과 함께 연습이나 방법에 관한 질문입니다. 로지스틱 회귀 모델을 만드는 동안 사람들이 범주 형 변수 (또는 비닝되는 연속 형 변수)를 각각의 증거 가중치 (WoE)로 대체하는 것을 보았습니다. 이것은 회귀 변수와 종속 변수 사이의 단조로운 관계 를 설정하기 위해 수행됩니다 . 내가 이해하는 한 모델이 만들어지면 방정식의 변수는 데이터 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.