«categorical-encoding» 태그된 질문

범주 형 변수를 숫자 변수 세트로 나타냅니다. 범주 형 데이터를 처리하기 위해 여러 유형의 분석에 필요합니다. 일반적인 예는 더미 코딩, 효과 코딩, Helmert 코딩, 사용자 정의 대비 등을 통해 회귀 / ANOVA에서 범주 형 예측 변수를 사용하는 것입니다.


3
이진 데이터의 지표 변수 : {-1,1} vs {0,1}
나는 이진 처리 할당 지시자 와 함께 실험 / 무작위 통제 시험의 맥락에서 처리-공변량 상호 작용에 관심이있다 .TTT 특정 방법 / 소스에 따라 치료 대상자와 치료하지 않은 대상에 대해 각각 및 을 모두 보았습니다 .T={1,0}T={1,0}T=\{1,0\}T={1,−1}T={1,−1}T=\{1, -1\} {1,0}{1,0}\{1,0\} 또는 을 사용할 때 경험할만한 규칙이 {1,−1}{1,−1}\{1, -1\}있습니까? 해석은 어떤면에서 다른가?

3
로지스틱 회귀 분석 (SPSS)에서 이진이 아닌 범주 형 변수를 처리하는 방법
많은 독립 변수로 이진 로지스틱 회귀 분석을 수행해야합니다. 그것들은 대부분 이진이지만 범주 형 변수 중 일부는 두 개 이상의 수준을 가지고 있습니다. 그러한 변수를 다루는 가장 좋은 방법은 무엇입니까? 예를 들어 가능한 값이 세 개인 변수의 경우 두 개의 더미 변수를 만들어야한다고 가정합니다. 그런 다음 단계적 회귀 절차에서 두 더미 …

4
열에 범주 형 데이터가 있는지 또는 파이썬을 사용하지 않는지 통계적으로 증명하는 방법
파이썬에서 모든 범주 형 변수를 찾아야하는 데이터 프레임이 있습니다. int유형도 범주 형일 수 있으므로 열 유형을 확인하는 것이 항상 작동하지는 않습니다 . 따라서 열이 범주인지 여부를 식별하는 올바른 가설 검정 방법을 찾는 데 도움을 요청합니다. 카이 제곱 테스트 아래에서 시도했지만 이것이 충분히 좋은지 확실하지 않습니다. import numpy as np data …

1
R 선형 회귀 범주 형 변수 "숨김"값
이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 : a.lm = lm(Y ~ x1 + x2) x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다. summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


4
n-1 변수를 사용하여 더미 변수를 구현하는 방법은 무엇입니까?
4 레벨의 변수가있는 경우 이론적으로 3 개의 더미 변수를 사용해야합니다. 실제로 이것은 실제로 어떻게 수행됩니까? 0-3을 사용합니까, 1-3을 사용하고 4를 비워 두나요? 어떤 제안? 참고 : 저는 R에서 일할 것입니다. 업데이트 : AD에 해당하는 1-4를 사용하는 열을 하나만 사용하면 어떻게됩니까? 작동하거나 문제가 발생합니까?
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.