«binary-data» 태그된 질문

이진 변수는 일반적으로 "0"과 "1"로 코딩 된 두 값 중 하나를 사용합니다.

1
이진 계측기 및 이진 내생 변수를 사용하여 계측 변수 회귀 분석의 2 단계 계수를 해석하는 방법은 무엇입니까?
(정말 긴 글입니다. 죄송합니다. 배경 정보가 많이 포함되어 있으므로 하단의 질문으로 건너 뛰어도됩니다.) 소개 : 저는 이진 내생 변수 이 지속적인 결과 에 미치는 영향을 확인하려는 프로젝트를 진행하고 있습니다. 우리는 임의로 할당 된 것으로 강력하게 믿고 있는 도구 .엑스1x1x_1와이yy지1z1z_1 데이터 : 데이터 자체는 약 34,000 개의 관측치가 1000 개 단위와 …

3
이진 데이터의 지표 변수 : {-1,1} vs {0,1}
나는 이진 처리 할당 지시자 와 함께 실험 / 무작위 통제 시험의 맥락에서 처리-공변량 상호 작용에 관심이있다 .TTT 특정 방법 / 소스에 따라 치료 대상자와 치료하지 않은 대상에 대해 각각 및 을 모두 보았습니다 .T={1,0}T={1,0}T=\{1,0\}T={1,−1}T={1,−1}T=\{1, -1\} {1,0}{1,0}\{1,0\} 또는 을 사용할 때 경험할만한 규칙이 {1,−1}{1,−1}\{1, -1\}있습니까? 해석은 어떤면에서 다른가?

1
자동 상관 이진 시계열 모델링
이진 시계열 모델링에 대한 일반적인 접근 방법은 무엇입니까? 이것이 취급되는 종이나 교과서가 있습니까? 강력한 자기 상관 관계가있는 이진 프로세스를 생각합니다. AR (1) 프로세스의 부호와 같은 것은 0에서 시작합니다. 말 및 백색 잡음 . 그런 다음 의해 정의 된 이진 시계열 은 자기 상관을 보여 주며 다음 코드로 설명하고 싶습니다.엑스0= 0X0=0X_0 …

1
로지스틱 회귀를 훈련시키는 데 "부분 신용"(연속 결과)을주는 것이 좋은 생각입니까?
나는 어떤 선수들이 혹독한 지구력 경주를 끝내게 될지 예측하기 위해 로지스틱 회귀를 훈련하고 있습니다. 이 경주를 마친 러너는 거의 없기 때문에 심각한 클래스 불균형과 작은 성공 사례 (수십 개)가 있습니다. 나는 거의 그것을 만든 수십 명의 주자로부터 좋은 "신호"를 얻을 수 있다고 생각 합니다. (내 훈련 데이터는 완성뿐만 아니라 완료되지 …

1
요인 분석에서 이진 변수에 대한 Pearson 상관 관계 (테트라 코릭 대신)를 계산할 때 어떤 위험이 있습니까?
교육 게임에 대한 연구를하고 있으며 현재 진행중인 일부 프로젝트에는 BoardGameGeek (BGG) 및 VideoGameGeek (VGG)의 데이터를 사용하여 게임의 디자인 요소 (예 : "제 2 차 세계 대전에서 설정 됨", "롤링 주사위 포함") 간의 관계를 조사합니다. ) 및 해당 게임의 플레이어 등급 (예 : 10 점 만점). 이러한 각 디자인 요소는 BGG …

3
로지스틱 회귀 분석에 대한 베이지안 적합도를 시각화하는 방법
베이지안 로지스틱 회귀 문제의 경우, 사후 예측 분포를 만들었습니다. 예측 분포에서 표본을 추출하고 내가 가진 각 관측치에 대해 (0,1)의 표본을 수천 개받습니다. 예를 들어 적합도를 시각화하는 것은 흥미롭지 않습니다. 이 그림은 10,000 개의 샘플 + 관측 된 데이텀 포인트를 보여줍니다 (왼쪽에서 빨간색 선을 만들 수 있음). 문제는이 음모가 거의 유익하지 …

2
R을 사용한 이분법 데이터의 요인 분석을위한 권장 절차
이분법 변수 (0 = 예, 1 = 아니오)로 구성된 데이터 집합에 대해 요인 분석을 실행해야하며 올바른 방향에 있는지 알 수 없습니다. 를 사용하여 tetrachoric()내가 실행하는 상관 행렬을 만듭니다 fa(data,factors=1). 결과는 MixFactor를 사용할 때받은 결과와 거의 비슷 하지만 동일하지는 않습니다. 괜찮습니까, 아니면 다른 절차를 추천 하시겠습니까? 왜 fa()작동하고 factanal()오류가 발생합니까? ( …

1
R 선형 회귀 범주 형 변수 "숨김"값
이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 : a.lm = lm(Y ~ x1 + x2) x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다. summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


4
이 이진 예측 문제에 어떻게 접근해야합니까?
다음 형식의 데이터 세트가 있습니다. 이진 결과 암이 있거나 암이 없습니다. 데이터 세트의 모든 의사는 모든 환자를보고 환자에게 암이 있는지 여부에 대한 독립적 인 판단을 내 렸습니다. 그런 다음 의사는 5 단계 중 자신의 진단이 정확하고 신뢰 수준이 괄호 안에 표시된다는 신뢰 수준을 제공합니다. 이 데이터 세트에서 좋은 예측을 얻기 …

5
클래스 라벨의 100 %에 가까운 클래스가 하나의 클래스에 속하는 경우 분류기의 성능을 측정하는 방법은 무엇입니까?
내 데이터에는 로 표시된 클래스 변수가 있습니다. 이 클래스 변수 값은 (이진)입니다. 거의 모든 관측치 는 0입니다 (100 %에 가깝고 더 정확하게는 97 %). 다른 분류 모델에 대한 "성능"테스트를 원합니다 (정확할 수 있음). 내가 두려워하는 것은 항상 관찰을 클래스 0으로 분류하는 분류 모델이 있으면 해당 모델은 다른 변수를 고려하지 않더라도 …

3
행렬 곱셈을 사용하여 이진 데이터에 대한 Jaccard 또는 기타 연관 계수 계산
행렬 곱셈을 사용하여 Jaccard 계수를 계산할 수있는 방법이 있는지 알고 싶습니다. 이 코드를 사용했습니다 jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } 이것은 R에서 …

2
데이터에 대한 ROC 곡선 계산
그래서, 나는 16 개의 시험을 가지고 있는데, 여기에서 Hamming Distance를 사용하여 생체 특성으로부터 사람을 인증하려고합니다. 임계 값이 3.5로 설정되었습니다. 내 데이터는 다음과 같으며 1 번 시험 만 참 긍정입니다. Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.