«binary-data» 태그된 질문

이진 변수는 일반적으로 "0"과 "1"로 코딩 된 두 값 중 하나를 사용합니다.

1
귀무 가설 하에서 교환 가능한 샘플의 직관은 무엇입니까?
순열 검정 (랜덤 화 검정, 재 랜덤 화 검정 또는 정확한 검정이라고도 함)은 매우 유용하며, 예를 들어 요구되는 정규 분포 가정이 t-test충족되지 않고 순위에 따라 값을 변환 할 때 유용합니다. 비모수 테스트 Mann-Whitney-U-test는 더 많은 정보가 손실 될 수 있습니다. 그러나 이러한 종류의 테스트를 사용할 때 단 하나의 가정 만 …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

5
1 클래스 텍스트 분류는 어떻게합니까?
텍스트 분류 문제를 해결해야합니다. 웹 크롤러는 특정 도메인의 웹 페이지를 크롤링하며 각 웹 페이지에 대해 특정 클래스에만 속하는지 여부를 확인하고 싶습니다. 즉,이 클래스를 Positive 호출하면 크롤링 된 각 웹 페이지는 Positive 클래스 또는 Non-Positive 클래스에 속합니다 . Positive 클래스에 대한 대규모 교육용 웹 페이지가 이미 있습니다 . 그러나 가능한 비 …

1
R을 사용하여 이분법 데이터 (이진 변수)에 대한 요인 분석의 예를 살펴 보는 단계
나는 이분법적인 데이터 만 있고 이진 변수 만 있고 상사는 테트라 코릭 상관 행렬을 사용하여 요인 분석을 수행하도록 요청했습니다. 이전에 여기와 UCLA의 통계 사이트 및 기타 사이트 에서 예제를 기반으로 다른 분석을 실행하는 방법을 스스로 가르쳐 왔지만 이분법에 대한 요인 분석의 예를 단계별로 찾을 수는 없습니다. R을 사용하여 데이터 (이진 …

1
이진 데이터와 관련된 분산 및 분할 변화
물류 선형 혼합 효과 모델 (무작위 가로 채기)을 사용하여 175 개 학교에서 30 만 명의 학생에 대한 데이터를 분석하고 있습니다. 각 학생은 정확히 한 번만 발생하며 데이터는 6 년에 걸쳐 있습니다. 지속적인 결과를 위해 VPC / ICC와 비슷한 방식으로 학교와 학생 수준의 차이를 어떻게 분할합니까? 나는 A와 B가 나에게 흥미로운 …


2
연속 시간 종 이진 반응을위한 R 패키지가 있습니까?
이 bild패키지는 직렬 이진 응답을위한 훌륭한 패키지 인 것으로 보입니다. 그러나 별개의 시간이다. 나는 이전에 측정 된 이진 반응 또는 적어도 이것의 1 차 Markov 버전으로 현재 응답 Y의 승산 비 연결에 매끄러운 시간 함수를 지정하고 싶습니다. 이것을 이것을 로지스틱 로지스틱 회귀라고합니다. 누구든지 연속 시간을 처리하는 R 패키지를 알고 있습니까? …

1
올가미에 대한 LARS 대 좌표 하강
L1 정규 선형 회귀 피팅에 LARS [1] 사용과 좌표 하강 사용의 장단점은 무엇입니까? 나는 주로 퍼포먼스 측면에 관심이있다 (내 문제는 N수십만에서 p20 이하인 경향이있다 ). 그러나 다른 통찰력도 인정 될 것이다. 편집 : 내가 질문을 게시 한 후 chl은 Friedman 등의 논문 [2]에 좌표 하강이 다른 방법보다 상당히 빠른 것으로 …

2
확률 모델을 교정하는 동안 최적의 빈 너비를 선택하는 방법은 무엇입니까?
배경 : 결과 발생 가능성을 예측하는 모델을 교정하는 방법에 대한 몇 가지 훌륭한 질문 / 답변이 있습니다. 예를 들어 브리 어 점수 및 결의, 불확실성 및 신뢰성 으로의 분해 . 교정 플롯 및 등장 회귀 . 이러한 방법은 종종 예측 된 확률에 비닝 방법을 사용해야하므로 결과의 동작 (0, 1)이 평균 …

4
이진 시계열 예측
자동차가 움직이지 않을 때 1과 자동차가 움직일 때 0으로 이진 시계열이 있습니다. 최대 36 시간 전과 매 시간마다 수평선을 예측하고 싶습니다. 첫 번째 접근 방식은 t-24 (일별 계절), t-48 (주간 계절), 하루 중 시간을 사용하여 Naive Bayes를 사용하는 것입니다. 그러나 결과는 그리 좋지 않습니다. 이 문제에 대해 어떤 기사 나 …

2
이진 분류 문제에서 auc 대 logloss 최적화
결과 확률이 매우 낮은 이진 분류 작업을 수행하고 있습니다 (3 %). AUC 또는 로그 손실로 최적화할지 여부를 결정하려고합니다. 내가 아는 한, AUC는 클래스를 구별하는 모델의 능력을 최대화하는 반면, logloss는 실제 확률과 추정 된 확률 사이의 차이를 불이익을줍니다. 내 작업에서 정밀 정확도를 교정하는 것이 매우 중요합니다. 그래서 logloss를 선택하지만 최고의 log-loss …


3
이진 데이터 클러스터링이 중요한지 어떻게 테스트 할 수 있습니까?
장바구니를 분석하고 있습니다. 데이터 세트가 구매 한 상품과 함께 거래 벡터 세트입니다. 거래에 K-수단을 적용 할 때, 난 항상 얻을 것이다 어떤 결과를. 임의 행렬은 아마도 일부 군집을 보여줄 것입니다. 내가 찾은 클러스터링이 중요한지 또는 우연의 일치인지 테스트하는 방법이 있습니까? 그렇다면 어떻게 할 수 있습니까?

4
로지스틱 회귀 및 변곡점
이진 결과와 일부 공변량을 가진 데이터가 있습니다. 로지스틱 회귀를 사용하여 데이터를 모델링했습니다. 간단한 분석만으로도 특별한 것은 없습니다. 최종 결과는 특정 공변량에 대한 확률이 어떻게 변하는 지 보여주는 선량-반응 곡선이어야합니다. 이 같은: 우리는 로지스틱 회귀 분석을 선택한 내부 검토 자 (순수 통계 학자 아님)로부터 비판을 받았습니다. 로지스틱 회귀 분석은 확률 척도에서 …

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
거대한 이진 데이터 집합을 몇 가지 범주로 클러스터링하려면 어떤 알고리즘을 사용해야합니까?
바이너리 데이터 (0-1 항목 만)의 큰 (650K 행 * 62 열) 행렬이 있습니다. 매트릭스는 대부분 희박합니다. 약 8 %가 채워집니다. 1에서 5로 명명 된 5 개의 그룹으로 클러스터링하고 싶습니다. 계층 적 클러스터링을 시도했지만 크기를 처리 할 수 ​​없었습니다. 또한 길이 62의 650K 비트 벡터를 고려하여 해밍 거리 기반 k- 평균 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.