«categorical-data» 태그된 질문

범주 형 (명목이라고도 함) 데이터는 범주라고하는 제한된 수의 값을 취할 수 있습니다. 범주 형 값 "label"은 "측정"되지 않습니다. 불연속이지만 주문 된 데이터 유형에는 [ordinal-data] 태그를 사용하십시오.


1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
연속 및 범주 기능을 모두 사용하여 예측
일부 예측 모델링 기법은 연속 예측 변수를 처리하기 위해 더 설계된 반면, 다른 예측 기법은 범주 형 또는 이산 변수를 처리하는 데 더 좋습니다. 물론 한 유형을 다른 유형으로 변환하는 기술이 있습니다 (분산, 더미 변수 등). 그러나 단순히 피처 유형을 변환하지 않고 두 유형의 입력을 동시에 처리하도록 설계된 예측 모델링 …

3
범주 형 변수를 사용하여 로짓 회귀 분석의 교호 작용 항 해석
응답자가 네 그룹 중 하나에 무작위로 할당 된 설문 조사 실험의 데이터가 있습니다. > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 세 가지 치료 그룹은 적용되는 자극이 약간 다르지만, 내가 관심을 갖는 주요 차이점은 대조군과 치료 그룹 사이에 있습니다. 그래서 더미 변수를 정의했습니다 Control. > summary(df$Control) TRUE FALSE …


1
거대한 희박한 비상 대표를 시각화하는 방법?
약물 이름 (DN)과 이에 해당하는 이상 반응 (AE)이라는 두 가지 변수가 있는데, 이는 다 대다 관계에 있습니다. 33,556 개의 약물 이름과 9,516 개의 부작용이 있습니다. 표본 크기는 약 580 만 개의 관측치입니다. DN과 AE의 연관성 / 관계를 연구하고 이해하고 싶습니다. 그림을 보는 것이 더 낫기 때문에 R 에서이 세트를 시각화하는 …

3
시간은 범주 형 변수입니까?
값이 0, 1, 2, ..., 23 일 수있는 "시간"이 범주 형 변수입니까? 예를 들어 5가 3 또는 7에 비해 4 또는 6에 더 가깝기 때문에 아니오라고 말하고 싶습니다. 반면에 23과 0 사이의 불연속성이 있습니다. 일반적으로 범주 형으로 간주됩니까? '시간'은 예측하려는 변수가 아닌 독립 변수 중 하나입니다.



1
one-hot 인코딩을 사용할 때 열 중 하나를 삭제
기계 학습에서 동일한 정보를 효과적으로 인코딩하기 때문에 데이터 세트에 상관 관계가 높은 기능이 있으면 문제가 될 수 있습니다. 최근 누군가 범주 형 변수에 대해 원핫 인코딩을 수행하면 관련 기능이 생겨서 그 중 하나를 "참조"로 삭제해야한다고 지적했습니다. 예를 들어 성별을 두 변수로 인코딩하면 is_male과 is_female음의 상관 관계를 갖는 두 가지 기능이 …

8
세 가지 범주 형 변수 사이의 관계를 어떻게 시각화 할 수 있습니까?
세 가지 범주 형 변수가있는 데이터 세트가 있고 하나의 그래프에서 세 가지의 관계를 시각화하고 싶습니다. 어떤 아이디어? 현재 다음 세 가지 그래프를 사용하고 있습니다. 각 그래프는 일정 수준의 우울함 (가벼움, 보통, 심각)에 대한 것입니다. 그런 다음 각 그래프에서 치료 (0,1)와 우울증 개선 (없음, 보통, 실질적) 사이의 관계를 살펴 봅니다. 이 …

4
PCA 공간에 새로운 벡터를 투영하는 방법?
주성분 분석 (PCA)을 수행 한 후 PCA 공간에 새 벡터를 투영하려고합니다 (즉, PCA 좌표계에서 해당 좌표를 찾습니다). 를 사용하여 R 언어로 PCA를 계산했습니다 prcomp. 이제 내 벡터에 PCA 회전 행렬을 곱할 수 있어야합니다. 이 매트릭스의 주요 구성 요소를 행 또는 열로 배열해야합니까?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 


4
엣지 케이스의 정밀도 및 리콜에 대한 올바른 값은 무엇입니까?
정밀도는 다음과 같이 정의됩니다. p = true positives / (true positives + false positives) 로, 즉를 정확 true positives하고 false positives, 정밀도가 한 접근 방식 0? 리콜에 대한 동일한 질문 : r = true positives / (true positives + false negatives) 현재이 값을 계산 해야하는 통계 테스트를 구현 중이며 때로는 …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

5
이산 변수와 연속 변수 간의 관계를 시각화하는 가장 좋은 방법은 무엇입니까?
다음 사이의 관계를 표시하는 가장 좋은 방법은 무엇입니까? 연속적이고 이산적인 변수 두 개의 이산 변수? 지금까지 산포도를 사용하여 연속 변수 간의 관계를 살펴 보았습니다. 그러나 불연속 변수의 경우 데이터 포인트가 특정 간격으로 누적됩니다. 따라서 최적의 선이 편향 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.