«categorical-data» 태그된 질문

범주 형 (명목이라고도 함) 데이터는 범주라고하는 제한된 수의 값을 취할 수 있습니다. 범주 형 값 "label"은 "측정"되지 않습니다. 불연속이지만 주문 된 데이터 유형에는 [ordinal-data] 태그를 사용하십시오.


3
one-hot 인코딩이 필요한 알고리즘은 무엇입니까?
순서가없는 범주 형 변수에 원 핫 인코딩을 사용해야 할 때와 사용하지 않을 때는 확실 하지 않습니다. 알고리즘이 거리 메트릭을 사용하여 유사성을 계산할 때마다 사용합니다. 순서가없는 범주 형 기능이 핫 인코딩 된 유형과 어떤 유형의 알고리즘이 아닌 알고리즘 유형에 대한 일반적인 경험을 가진 사람이 있습니까?

2
다단계 요인이있는 모형에 적합하려면 왜 R이 오래 걸립니까?
여러 수준의 요인이있는 모델에 적합하며 해당 모델에 적합하려면 R이 실제로 오랜 시간이 걸립니다. 왜 이런거야? 예를 들어, 플레이어의 급여를 예측하기 위해 회귀 분석을 적용하고 모든 플레이어의 각 국적에 대한 요인 예측 변수를 포함시키는 경우 플레이어의 급여에 대한 모델을 플레이어의 연속 예측 변수와 맞추는 것보다 시간이 오래 걸립니다. 높이.

2
(이 분이 아닌) 명목 변수와 숫자 (간격) 또는 서수 변수 사이의 상관 계수
나는 이미이 사이트의 모든 페이지를 읽었고 내 문제에 대한 답을 찾으려고했지만 아무도 나에게 맞는 것 같지 않습니다 ... 먼저 내가 작업하는 데이터의 종류를 설명합니다 ... 300 명의 사용자마다 하나씩 여러 도시 이름을 가진 배열 벡터가 있다고 가정 해 봅시다. 또한 각 사용자의 설문 조사에 대한 점수 응답 또는 각 사용자의 …

1
속성이 공칭 일 때 개인을위한 최적의 거리 기능은 무엇입니까?
명목 형 (정렬되지 않은 범주 형) 속성의 경우 개인간에 어떤 거리 기능을 사용해야하는지 모르겠습니다. 나는 교과서를 읽고 있었고 Simple Matching 기능 을 제안 했지만 일부 책은 공칭을 이진 속성으로 변경하고 Jaccard Coefficient 를 사용해야한다고 제안합니다 . 그러나 명목 속성의 값이 2가 아닌 경우 어떻게해야합니까? 해당 속성에 3-4 개의 값이 있으면 …

2
glmnet : 다항식 매개 변수를 이해하는 방법은 무엇입니까?
다음 문제 : glmnet ()을 사용하여 하나 이상의 범주 형 변수로 범주 형 응답 변수를 예측하고 싶습니다. 그러나 glmnet이 제공하는 출력을 이해할 수 없습니다. 먼저 두 가지 관련 범주 형 변수를 생성 해 보겠습니다. 데이터 생성 p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] <- …

2
두 명목 변수 사이의 상관 관계 측정 방법을 찾으려면 어떻게합니까?
사람들이 특정 스마일을 사용하여 자신의 출신 국을 대표하고 입국 한 것을 선택하는 설문 조사가 이루어졌습니다. 텍스트 응답을 숫자로 코딩했습니다. 사람들이 어디에서 왔으며 그들이 선택한 표현 사이의 상관 관계 수준을 확인하려면 어떤 형태의 분석을 사용해야합니까 (SPSS에서 선호)?

2
예를 들어 요일을 기준으로 한 회귀
올바른 방향으로 움직이려면 약간의 도움이 필요합니다. 통계를 연구 한 지 오랜 시간이 걸리고 전문 용어가 변경된 것 같습니다. 다음과 같은 자동차 관련 데이터 세트가 있다고 가정하십시오. A 타운에서 B 타운까지의 여정 시간 마을 A에서 마을 B까지의 거리 엔진 크기 운전자의 신발 사이즈 자동차 제조사 및 모델 요일 여행 시간을 예측하고 …

2
범주 형 변수 간의 공선 성
연속 예측 변수와 관련하여 공선 성이 많지만 범주 형 예측 변수에서는 찾을 수 없습니다. 아래에이 유형의 데이터가 있습니다. 첫 번째 요인은 유전 적 변수 (대립 유전자 수)이고 두 번째 요인은 질병 범주입니다. 분명히 유전자가 질병보다 우선하며 진단으로 이어지는 증상을 나타내는 요인입니다. 그러나 SPSS와 관련하여 일반적으로 수행되는 II 또는 III 제곱합을 …

2
모든 커뮤니티에 대해 개별 회귀 분석을 실행해야합니까? 아니면 커뮤니티가 집계 된 모델에서 제어 변수가 될 수 있습니까?
DV로 지속적인 자산 인덱스 변수를 사용하여 OLS 모델을 실행하고 있습니다. 내 데이터는 서로 가까운 지리적으로 근접한 3 개의 유사한 커뮤니티에서 집계됩니다. 그럼에도 불구하고 커뮤니티를 제어 변수로 사용하는 것이 중요하다고 생각했습니다. 결과적으로 커뮤니티는 1 % 수준에서 중요합니다 (t 점수 -4.52). 커뮤니티는 3 개의 다른 커뮤니티 중 1 개에 대해 1,2,3으로 코딩 …

2
R에서 정렬 된 범주 형 데이터 간의 상관 관계를 시각적으로 신속하게 평가합니까?
설문 조사에서 다른 질문에 대한 답변 사이의 상관 관계를 찾고 있습니다 ( "음, 11 번 질문에 대한 답변이 78 번 질문에 대한 답변과 관련이 있는지 살펴 보겠습니다"). 모든 답변은 범주 형 (대부분 "매우 불행"에서 "매우 행복"까지)이지만 일부 답변에는 다른 답변이 있습니다. 대부분은 서수로 간주 될 수 있으므로이 경우를 고려해 보겠습니다. …

6
R의 data.frame에서 모든 고유 요인 조합에 대한 요약 통계를 찾는 방법은 무엇입니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . data.frame에서 요인의 각 고유 조합에 대해 data.frame에서 변수 요약을 계산하려고합니다. plyr를 사용해야합니까? apply ()와 반대로 루프를 사용하는 것이 좋습니다. 각 고유 한 조합을 …

4
다중 카이-제곱 검정
2 x 2 x 6 테이블에서 교차 분류 된 데이터가 있습니다. 하자가 치수를 호출 response, A하고 B. 로지스틱 회귀 분석을 모형이있는 데이터에 적합합니다 response ~ A * B. 해당 모형의 이탈도 분석에 따르면 항과 교호 작용이 모두 중요합니다. 그러나 데이터의 비율을 살펴보면 2 개 정도의 수준만 B이 중요한 영향을 미치는 …

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
선형 회귀 분석에서 이진 / 이분법 독립 예측 변수에 대한 잔차 분석을 수행하는 방법은 무엇입니까?
나는 기금 관리 수익을 예측하기 위해 R에서 아래의 다중 선형 회귀를 수행하고 있습니다. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) 여기서는 GRI와 MBA 만 이진 / 이분법 예측 변수입니다. 나머지 예측 변수는 연속적입니다. 이 코드를 사용하여 이진 변수에 대한 잔차 그림을 생성하고 있습니다. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.