«categorical-data» 태그된 질문

범주 형 (명목이라고도 함) 데이터는 범주라고하는 제한된 수의 값을 취할 수 있습니다. 범주 형 값 "label"은 "측정"되지 않습니다. 불연속이지만 주문 된 데이터 유형에는 [ordinal-data] 태그를 사용하십시오.

1
범주 형 데이터를 사용하여 음 이항 GLM에서 .L 및 .Q 출력 해석
방금 음 이항 GLM을 실행했으며 출력입니다. Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 …

3
더미 변수 센터링 및 스케일링
범주 형 변수와 연속 변수가 모두 포함 된 데이터 세트가 있습니다. 범주 형 변수를 각 수준에 대한 이진 변수로 변환하는 것이 좋습니다 (예 : A_level1 : {0,1}, A_level2 : {0,1}). 일부는이 "더미 변수"라고합니다. 그렇게 말하면, 새로운 변수로 전체 데이터 세트를 중앙에 배치하고 스케일링하는 것이 오해의 소지가 있습니까? 마치 변수의 "켜기 …

6
랜덤 포레스트 : 테스트 세트에서 새로운 요소 수준을 처리하는 방법?
R의 임의 포리스트 모델을 사용하여 예측하려고합니다. 그러나 테스트 세트의 일부 요소가 훈련 세트와 다른 값을 가지므로 오류가 발생합니다. 예를 들어, 테스트 세트에는 학습 세트에 표시되지 않은 Cat_2값 34, 68, 76등 이 있습니다 . 불행히도, 테스트 세트를 제어 할 수 없습니다 ... 나는 그대로 사용해야합니다. 내 유일한 해결 방법은을 사용하여 문제가되는 …

2
설문지에서 서수 데이터를 적절한 간격 데이터로 변환하는 방법은 무엇입니까?
서수 레벨 데이터를 간격 레벨로 변환 하는 간단한 방법이 있습니까 (다른 방법으로 수행하는 것처럼)? 그리고 Excel 또는 SPSS에서 수행 할 수 있습니까? 서수 수준에 대한 10 가지 질문 (예 : 0-5 척도, 0 = 전혀 아님), 5 = 항상 그렇습니다)을 가지고 데이터를 적절하게 취급 할 수 있도록 변환하고 싶습니다. 모수 …

4
범주 형 데이터를 요약하는 방법?
나는 다음과 같은 문제로 어려움을 겪고 있기 때문에 통계 학자에게는 쉬운 일입니다 (통계에 약간 노출 된 프로그래머입니다). 설문에 대한 답변을 (관리를 위해) 요약해야합니다. 설문 조사에는 100 개 이상의 질문이 있으며, 여러 영역으로 그룹화되어 있습니다 (영역 당 약 5-10 개의 질문). 모든 답변은 범주 형입니다 (서수 척도에서는 "아무도", "드물게"... "매일 또는 …

2
일일 데이터에 대한 다중 회귀 분석에서 계절성 캡처
계절이 많은 제품에 대한 일일 판매 데이터가 있습니다. 회귀 모형의 계절성을 캡처하고 싶습니다. 분기 별 또는 월별 데이터가있는 경우 각각 3 개 및 11 개의 더미 변수를 만들 수 있지만 일일 데이터를 처리 할 수 ​​있습니까? 3 년 간의 일일 데이터가 있습니다. 독립 변수는 가격, 판촉 플래그 (예 / 아니오) …

2
GLM에서 더미 (수동 또는 자동) 변수 생성 이해
요인 변수 (예 : M 및 F 수준의 성별)가 glm 공식에 사용되는 경우 더미 변수가 생성되며 관련 계수 (예 : genderM)와 함께 glm 모델 요약에서 찾을 수 있습니다 이러한 방식으로 인수를 분할하기 위해 R을 사용하는 대신 일련의 숫자 0/1 변수 (예 : genderM (M의 경우 1, F의 경우 F), genderF …

2
의사 결정 트리의 범주 형 기능을 코딩하는 모범 사례?
선형 회귀 분석을 위해 범주 형 피쳐를 코딩 할 때 규칙이 있습니다. 더미의 수는 공선 성을 피하기 위해 총 레벨 수보다 하나 작아야합니다. 의사 결정 트리에 대해 비슷한 규칙이 있습니까 (태그, 부스트)? 파이썬의 표준 연습은 n레벨을 n인형 (sklearns ' OneHotEncoder또는 Pandas' pd.get_dummies) 으로 확장 하여 저에게 최적이 아닌 것처럼 보이기 …

1
파이썬에서 순서 형 로지스틱 회귀
세 가지 수준과 설명 요소가있는 반응 변수에 대해 파이썬에서 순서 형 로지스틱 회귀를 실행하고 싶습니다. 이 statsmodels패키지는 이진 로짓 및 다항 로짓 (MNLogit) 모델을 지원하지만 순서가 지정된로 짓은 지원하지 않습니다. 기본 수학이 다르지 않기 때문에 이것을 사용하여 쉽게 구현할 수 있는지 궁금합니다. (또는 작동하는 다른 Python 패키지도 높이 평가됩니다.)


5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
베리 역전
미국의 와인 판매에 대한 대규모 집계 시장 데이터가 있으며 특정 고품질 와인에 대한 수요를 추정하고 싶습니다. 이러한 시장 점유율은 기본적으로 형태의 임의의 유틸리티 모델에서 파생 된이 여기서 X 관찰 포함 제품 특성, p는 제품 가격을 나타내고, ξUijt=X′jtβ−αpjt+ξjt+ϵijt≡δjt+ϵjtUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} = X’_{jt}\beta - \alpha p_{jt} + \xi_{jt} + \epsilon_{ijt} \equiv \delta_{jt} + \epsilon_{jt}XXXpppξξ\xi영향을 …

3
Mundlak 고정 효과 절차는 인형과 함께 로지스틱 회귀에 적용 할 수 있습니까?
8000 개의 클러스터와 4 백만 개의 관측치가있는 데이터 세트가 있습니다. 불행히도 내 통계 소프트웨어 Stata는 로지스틱 회귀 분석에 패널 데이터 기능을 사용할 때 다소 느리게 실행됩니다 xtlogit. 그러나 비 패널 logit기능을 사용하면 결과가 훨씬 빨리 나타납니다. 따라서 logit고정 효과를 설명하는 수정 된 데이터를 사용하면 이점을 얻을 수 있습니다 . 나는이 …

1
R-자유도에서 PROC Mixed과 lme / lmer의 차이점
참고 :이 질문은 법적 이유로 인해 이전 질문을 삭제해야했기 때문에 다시 게시되었습니다. SAS의 PROC MIXED를 R lme의 nlme패키지 기능과 비교하는 동안 다소 혼란스러운 차이점을 발견했습니다. 구체적으로는, 다른 시험에서 자유도간에 상이 PROC MIXED하고 lme, 그리고 왜 생각해. 다음 데이터 세트에서 시작하십시오 (아래 제공된 R 코드). ind : 측정 대상을 나타내는 계수 …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
3 단계 비상 대응표를 처리하는 적절한 방법
나는 여러 종에 대한 수 데이터, 그들이 수집 한 숙주 식물 및 비오는 날에 그 수집이 일어 났는지 여부와 함께 3 단계 우발 사태 표를 가지고 있습니다 (실제로 중요합니다!). R을 사용하면 가짜 데이터는 다음과 같습니다. count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- rep(c("c","c", "d", "d"), 2) …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.