«categorical-data» 태그된 질문

범주 형 (명목이라고도 함) 데이터는 범주라고하는 제한된 수의 값을 취할 수 있습니다. 범주 형 값 "label"은 "측정"되지 않습니다. 불연속이지만 주문 된 데이터 유형에는 [ordinal-data] 태그를 사용하십시오.

6
주성분 분석을 연속 변수와 범주 변수가 혼합 된 데이터 세트에 적용 할 수 있습니까?
연속 데이터와 범주 데이터가 모두있는 데이터 세트가 있습니다. PCA를 사용하여 분석 중이며 범주 변수를 분석의 일부로 포함시키는 것이 좋은지 궁금합니다. PCA는 연속 변수에만 적용 할 수 있다는 것을 이해합니다. 그 맞습니까? 범주 형 데이터에 사용할 수없는 경우 분석에 어떤 대안이 있습니까?

6
순서가없는 범주 형 변수와의 상관 관계
많은 관측치와 변수가있는 데이터 프레임이 있습니다. 그들 중 일부는 범주 형 (정렬되지 않음)이고 다른 일부는 숫자입니다. 이 변수들 사이의 연관성을 찾고 있습니다. 수치 변수 (Spearman의 상관 관계)에 대한 상관 관계를 계산할 수 있었지만 : 정렬되지 않은 범주 형 변수 간의 상관 관계를 측정하는 방법을 모르겠습니다. 정렬되지 않은 범주 형 변수와 …


3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
여러 수준의 범주 형 변수를 축소하는 주요 방법은 무엇입니까?
통계 모델에서 여러 범주를 입력 (예측 자)으로 사용하기 위해 여러 범주를 축소 (또는 풀링)하는 데 사용할 수있는 기술은 무엇입니까? 대학생 전공 (학부생이 선택한학과) 과 같은 변수를 고려하십시오 . 순서가없고 범주 형이지만 수십 가지의 고유 한 수준을 가질 수 있습니다. 회귀 모델에서 메이저를 예측 변수로 사용하고 싶다고 가정 해 봅시다. 모델링을 …

8
범주 형 데이터를 연속적인 것으로 취급하는 것이 이치에 맞습니까?
불연속적이고 연속적인 데이터에 대한이 질문에 대답 하면서, 나는 범주 형 데이터를 연속적인 것으로 취급하는 것이 거의 이치에 맞지 않는다고 주장했다. 그것의 얼굴에는 자명 한 것처럼 보이지만 직관은 종종 통계에 대한 좋지 않은 가이드이거나 적어도 내 것입니다. 그래서 지금 궁금합니다. 맞습니까? 아니면 범주 형 데이터에서 일부 연속체로의 변환이 실제로 유용한 기존의 …

1
Scikit-learn의 One-hot vs Dummy 인코딩
범주 형 변수를 인코딩하는 방법에는 두 가지가 있습니다. 하나의 범주 형 변수에는 n 개의 값이 있습니다. 원핫 인코딩은 이를 n 개의 변수 로 변환하고 더미 인코딩은 이를 n-1 변수 로 변환합니다 . k 개의 범주 형 변수 가있는 경우 각각 n 개의 값을 갖습니다. 하나의 핫 인코딩은 kn 변수로 끝나고 …

7
두 서수 변수 사이의 관계에 대한 그래프
두 서수 변수 사이의 관계를 나타내는 적절한 그래프는 무엇입니까? 내가 생각할 수있는 몇 가지 옵션 : 임의의 지터가 추가 된 산점도는 서로 숨기는 지점을 중지합니다. 분명히 표준 그래픽-Minitab에서는이를 "개별 값 그림"이라고합니다. 내 의견으로는 데이터가 간격 스케일에서 온 것처럼 서수 레벨 사이의 일종의 선형 보간을 시각적으로 장려하므로 오도 될 수 있습니다. …

4
대비 행렬이란 무엇입니까?
무엇 정확히 대비 매트릭스 (용어, 범주 예측과 분석에 관한)이며 어떻게 정확히 대비 행렬을 지정? 즉, 열이란 무엇이며, 행은 무엇이며, 해당 행렬의 제약 조건은 무엇이며 열 j및 행의 숫자는 무엇을 i의미합니까? 나는 문서와 웹을 살펴 보려고했지만 모든 사람들이 그것을 사용하지만 아직 어디에도 정의가없는 것 같습니다. 사용 가능한 사전 정의 된 대비를 …

5
연속 변수와 범주 형 (명목) 변수의 상관 관계
연속 형 (종속 변수)과 범주 형 (명목 : 성별, 독립 변수) 변수 사이의 상관 관계를 찾고 싶습니다. 연속 데이터는 정상적으로 배포되지 않습니다. 이전에는 Spearman 's 사용하여 계산했습니다 . 그러나 나는 그것이 옳지 않다는 말을 들었다.ρρ\rho 인터넷에서 검색하는 동안 상자 그림이 얼마나 관련되어 있는지 알 수 있습니다. 그러나 Pearson의 제품 모멘트 …

5
R의 경고-카이 제곱 근사가 잘못되었을 수 있습니다.
소방관 입학 시험 결과를 보여주는 데이터가 있습니다. 시험 결과와 민족이 서로 독립적이지 않다는 가설을 테스트하고 있습니다. 이를 테스트하기 위해 R에서 Pearson 카이 제곱 테스트를 실행했습니다. 결과에 예상 한 결과가 표시되지만 ""라는 경고가 표시되었습니다 In chisq.test(a) : Chi-squared approximation may be incorrect. > a white black asian hispanic pass 5 2 …

6
많은 범주 형 변수로 분류 개선
200,000 개 이상의 샘플과 샘플 당 약 50 개의 기능으로 데이터 세트를 작성하고 있습니다. 10 개의 연속 변수와 다른 40 개는 범주 형 변수 (국가, 언어, 과학 분야 등)입니다. 이러한 범주 형 변수의 경우 예를 들어 150 개의 다른 국가, 50 개의 언어, 50 개의 과학 분야 등이 있습니다. 지금까지 …

2
다항 로지스틱 회귀 분석과 일대일 이진 로지스틱 회귀 분석
범주가 적고 독립 변수 세트 가있는 종속 변수 가 있다고 가정 해 봅시다 . YYY 이항 로지스틱 회귀 분석에 비해 다항 로지스틱 회귀 분석의 장점은 무엇입니까 (즉, 1 대 휴식 계획 )? 이항 로지스틱 회귀 집합을 사용 하면 일 때 각 범주 대해 target = 1로 별도의 이진 로지스틱 회귀 …

3
로지스틱 회귀 95 % 신뢰 구간을 수동으로 계산하는 것과 R에서 confint () 함수를 사용하는 것 사이에 차이가있는 이유는 무엇입니까?
사랑하는 여러분, 제가 설명 할 수없는 이상한 것을 발견했습니다. 요약 : 로지스틱 회귀 모델에서 신뢰 구간을 계산하는 수동 방법과 R 함수 confint()는 다른 결과를 제공합니다. Hosmer & Lemeshow의 Applied Logistic Regression (2 판)을 진행했습니다. 세 번째 장에는 승산 비와 95 % 신뢰 구간을 계산하는 예가 있습니다. R을 사용하면 모델을 쉽게 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

5
머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법
예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.