«categorical-data» 태그된 질문

범주 형 (명목이라고도 함) 데이터는 범주라고하는 제한된 수의 값을 취할 수 있습니다. 범주 형 값 "label"은 "측정"되지 않습니다. 불연속이지만 주문 된 데이터 유형에는 [ordinal-data] 태그를 사용하십시오.

3
one-hot 인코딩과 더미 인코딩의 문제
k 레벨의 범주 변수가 더미 인코딩에서 k-1 변수로 인코딩되어야한다는 사실을 알고 있습니다 (다중 값 범주 변수의 경우와 유사). 다른 회귀 방법, 주로 선형 회귀, 페널티 선형 회귀 (Lasso, Ridge, ElasticNet), 트리 기반 (임의 포리스트) , 그래디언트 부스팅 머신). 선형 회귀에서 다중 공선 성 문제가 발생한다는 것을 알고 있습니다 (실제로 아무런 …

5
모든 비용으로 비닝을 피해야하는 이유는 무엇입니까?
비닝을 항상 피해야하는 이유에 대한 몇 가지 게시물을 읽었습니다 . 이 링크에 대한 해당 주장에 대한 대중적인 참조 . 비닝 포인트 (또는 컷 포인트)는 결과적으로 손실되는 정보뿐만 아니라 임의적이며 스플라인이 선호되어야합니다. 그러나 현재 Spotify API를 사용하고 있습니다. Spotify API는 여러 기능에 대한 지속적인 자신감 측정 방법이 있습니다. 하나의 기능 "instrumentalness"를 …

1
요인 분석에서 이진 변수에 대한 Pearson 상관 관계 (테트라 코릭 대신)를 계산할 때 어떤 위험이 있습니까?
교육 게임에 대한 연구를하고 있으며 현재 진행중인 일부 프로젝트에는 BoardGameGeek (BGG) 및 VideoGameGeek (VGG)의 데이터를 사용하여 게임의 디자인 요소 (예 : "제 2 차 세계 대전에서 설정 됨", "롤링 주사위 포함") 간의 관계를 조사합니다. ) 및 해당 게임의 플레이어 등급 (예 : 10 점 만점). 이러한 각 디자인 요소는 BGG …

3
로지스틱 회귀 분석에서 범주 형 예측 변수를 WOE 변환해야하는 이유는 무엇입니까?
범주 형 변수의 증거 가중치 (WOE) 변환은 언제 유용합니까? 이 예는 WOE 변환 에서 볼 수 있습니다 (따라서, 응답에 대한 ,와 범주 예측기 카테고리, 밖으로 성공 내의 시험 이 예측기의 범주 번째의 용 화가 번째 카테고리는 다음과 같이 정의된다yyykkkyjyjy_jnjnjn_jjjjjjj logyj∑kjyj∑kj(nj−yj)nj−yjlog⁡yj∑jkyj∑jk(nj−yj)nj−yj\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} 변환은 범주 형 예측 변수의 …


2
데이터 유형 (공칭 / 소수 / 간격 / 비)이 실제로 변수 유형으로 간주되어야합니까?
예를 들어 표준 교과서에서 얻은 정의는 다음과 같습니다. 변수-모집단 또는 표본의 특성. 전의. 테스트시 주식 또는 등급의 가격 데이터-실제 관측 값 따라서 두 개의 열 보고서 [Name | 수입] 열 이름은 변수 및 실제 관측 값입니다. {dave | 100K}, {jim | 200K}는 데이터입니다 따라서 [이름] 열이 명목 데이터이고 [소득]이 비율 …


1
ARIMA 모델의 관측치 48에서 혁신적인 특이 치를 어떻게 통합합니까?
데이터 세트를 작업 중입니다. 일부 모델 식별 기술을 사용한 후 ARIMA (0,2,1) 모델을 만들었습니다. R detectIO의 패키지 TSA에 있는 함수를 사용하여 48 번째 원본 데이터 세트에서 혁신적인 이상치 (IO) 를 감지했습니다 . 이 특이 치를 내 모델에 어떻게 통합하여 예측 목적으로 사용할 수 있습니까? R에서 예측할 수 없기 때문에 ARIMAX …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
농도 매개 변수에 대한 초 우선 분포를 갖는 다항식 디 리틀 렛 모델
가능한 한 일반적인 문제를 설명하려고 노력할 것입니다. 모수 확률 벡터 세타를 사용하여 관측치를 범주 분포 로 모델링하고 있습니다. 그런 다음 매개 변수 벡터 theta는 매개 변수를 사용 하여 Dirichlet 사전 분포를 따르는 것으로 가정합니다 .α1,α2,…,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k 그런 다음 매개 변수 대해 hyperprior 분포를 부과 할 수 있습니까? categorical 및 dirichlet 분포와 …

2
범주 형 변수에 다중 공선 성이 내재되어 있습니까?
다변량 회귀 모델로 땜질을하는 동안 범주 형 변수 범주 내 에서 분산 인플레이션 계수로 측정 한 것처럼 작지만 눈에 띄는 다중 공선 효과가 있음을 알 수있었습니다 (물론 참조 범주 제외 후). 예를 들어, 연속 변수 y와 k가 가능한 배타적 값을 갖는 하나의 명목 범주 형 변수 x를 가진 데이터 세트가 …

2
이분법과 연속 변수의 상관 관계
이분법과 연속 변수 사이의 상관 관계를 찾으려고합니다. 이것에 대한 나의 기초 연구에서 나는 독립적 인 t- 검정을 사용해야한다는 것을 발견했으며 그에 대한 전제 조건은 변수의 분포가 정상이어야한다는 것입니다. 나는 정규성을 테스트하기 위해 Kolmogorov-Smirnov 테스트를 수행했으며 연속 변수가 비정규이며 비대칭 적이라는 것을 알았습니다 (약 4,000 데이터 포인트). 나는 모든 변수 범위에 …

3
로지스틱 회귀 분석 (SPSS)에서 이진이 아닌 범주 형 변수를 처리하는 방법
많은 독립 변수로 이진 로지스틱 회귀 분석을 수행해야합니다. 그것들은 대부분 이진이지만 범주 형 변수 중 일부는 두 개 이상의 수준을 가지고 있습니다. 그러한 변수를 다루는 가장 좋은 방법은 무엇입니까? 예를 들어 가능한 값이 세 개인 변수의 경우 두 개의 더미 변수를 만들어야한다고 가정합니다. 그런 다음 단계적 회귀 절차에서 두 더미 …

2
CSV 열을 범주 형 데이터로 직접 읽을 수 있습니까?
CSV로 제공되는 의료 설문 조사 (100 + 코딩 된 열 포함)의 데이터를 R로 분석해야합니다. 초기 분석에는 딸랑이 를 사용 하지만 뒤에서 여전히 R입니다. 내가하면 read.csv () 파일, 숫자 코드로 열이 숫자 데이터로 처리됩니다. factor ()를 사용하여 범주 열을 만들 수는 있지만 100 + 열에 대해 수행하는 것은 고통 스럽습니다 . …

4
열에 범주 형 데이터가 있는지 또는 파이썬을 사용하지 않는지 통계적으로 증명하는 방법
파이썬에서 모든 범주 형 변수를 찾아야하는 데이터 프레임이 있습니다. int유형도 범주 형일 수 있으므로 열 유형을 확인하는 것이 항상 작동하지는 않습니다 . 따라서 열이 범주인지 여부를 식별하는 올바른 가설 검정 방법을 찾는 데 도움을 요청합니다. 카이 제곱 테스트 아래에서 시도했지만 이것이 충분히 좋은지 확실하지 않습니다. import numpy as np data …

1
범주 형 데이터에 대해 벌칙을 적용하는 방법 : 요인의 수준 결합
처벌 모델은 매개 변수 수가 샘플 크기와 같거나 그보다 큰 모델을 추정하는 데 사용할 수 있습니다. 이 상황은 범주 형 또는 개수 데이터의 큰 희소 테이블의 로그 선형 모델에서 발생할 수 있습니다. 이러한 설정에서 다른 수준과 상호 작용하는 방식에서 해당 수준을 구별 할 수없는 요인 수준을 결합하여 표를 축소하는 것이 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.