«binary-data» 태그된 질문

이진 변수는 일반적으로 "0"과 "1"로 코딩 된 두 값 중 하나를 사용합니다.

9
2 차원 이진 행렬의 엔트로피 / 정보 / 패턴 측정
2 차원 이진 행렬의 엔트로피 / 정보 밀도 / 패턴 유사성을 측정하고 싶습니다. 설명을 위해 몇 가지 그림을 보여 드리겠습니다. 이 디스플레이는 다소 높은 엔트로피를 가져야합니다. 에이) 중간 엔트로피가 있어야합니다. 비) 마지막으로이 그림들은 모두 0에 가까운 엔트로피를 가져야합니다. 씨) 디) 이자형) 엔트로피를 포착하는 인덱스가 있습니까? 이 디스플레이의 "패턴 모양"? 물론, …

6
강하게 불균형이있는 이진 분류
(기능, 이진 출력 0 또는 1) 형식의 데이터 세트가 있지만 1은 거의 발생하지 않으므로 항상 0을 예측하면 70 %에서 90 % 사이의 정확도를 얻습니다 (내가 보는 특정 데이터에 따라 다름) ). ML 방법은 동일한 정확도를 제공하며,이 상황에서 적용 할 표준 방법이 있어야 분명한 예측 규칙보다 정확도를 향상시킬 수 있다고 생각합니다.

4
분류 확률 임계 값
일반적으로 분류에 관한 질문이 있습니다. f는 일부 데이터 D가 주어진 확률 세트를 출력하는 분류기 (classifier)라고하자. 일반적으로 P (c | D)> 0.5이면 클래스 1을 할당하고 그렇지 않으면 0을 할당한다. 분류). 내 질문은, 내가 알면, 확률을 1로 분류하면 확률이 0.2보다 클 때 분류 기가 더 잘 수행된다는 것입니다. 분류를 수행 할 때이 …


3
PCA가 부울 (이진) 데이터 유형에 대해 작동합니까?
고차 시스템의 차원을 줄이고 바람직하게는 2 차원 또는 1 차원 필드에서 대부분의 공분산을 포착하고 싶습니다. 나는 이것이 주성분 분석을 통해 이루어질 수 있다는 것을 알고 있으며 많은 시나리오에서 PCA를 사용했습니다. 그러나 부울 데이터 유형에는 사용하지 않았 으며이 세트로 PCA를 수행하는 것이 의미가 있는지 궁금했습니다. 예를 들어, 질적이거나 설명적인 척도가 있다고 …


1
순서 또는 이진 데이터에 대한 요인 분석 또는 PCA가 있습니까?
주요 성분 분석 (PCA), 탐색 적 요인 분석 (EFA) 및 확인 적 요인 분석 (CFA)을 완료하여 리 커트 척도 (5 단계 응답 : 없음, 약간, 약간, ..)로 데이터를 연속으로 처리했습니다. 변하기 쉬운. 그런 다음 Lavaan을 사용하여 변수를 범주 형으로 정의하는 CFA를 반복했습니다. 데이터가 본질적인 경우 어떤 유형의 분석이 적합하고 PCA …

2
클러스터링에서 이진 변수와 연속 변수를 함께 사용하는 방법은 무엇입니까?
k- 평균으로 이진 변수 (값 0 및 1)를 사용해야합니다. 그러나 k- 평균은 연속 변수에서만 작동합니다. k-means가 연속 변수 전용이라는 사실을 무시하고 일부 사람들은 여전히 ​​k-means에서이 이진 변수를 사용한다는 것을 알고 있습니다. 이것은 받아 들일 수 없습니다. 질문 : k- 평균 / 계층 군집화에서 이진 변수를 사용하는 통계적 / 수학적으로 올바른 …

7
예를 들어 성별이 일반적으로 1/2이 아닌 0/1로 코딩되는 이유는 무엇입니까?
데이터 분석을위한 코딩 논리를 이해합니다. 아래의 내 질문은 특정 코드 사용에 관한 것입니다. 성별이 여성의 경우 0, 남성의 경우 1로 코딩되는 이유가 있습니까? 이 코딩이 왜 '표준'으로 간주됩니까? 이것을 Female = 1 및 Male = 2와 비교하십시오.이 코딩에 문제가 있습니까?

5
이진 변수를 표준화해야합니까?
기능 세트가있는 데이터 세트가 있습니다. 이들 중 일부는 이진 활성 또는 해고, 0 = 비활성 또는 휴면)이고 나머지는 실제 값입니다 (예 : 4564.342) .( 1 =(1=(1=0 =0=0=4564.3424564.3424564.342 이 데이터를 기계 학습 알고리즘에 공급하고 싶기 때문에 모든 실제 가치 기능을 점수로 매 깁니다. 나는 범위 사이에 그들을 얻을 3 과 - …

3
모형의 예측 확률에 대한 보정 시각화
각 인스턴스에 대해 각 클래스에 대한 확률을 생성하는 예측 모델이 있다고 가정합니다. 이제 이러한 확률을 분류 (정밀도, 리콜 등)에 사용하려는 경우 이러한 모델을 평가할 수있는 여러 가지 방법이 있음을 알고 있습니다. 또한 ROC 곡선과 그 아래의 영역을 사용하여 모델이 클래스를 얼마나 잘 구별하는지 확인할 수 있습니다. 그것들은 내가 요구하는 것이 …

3
이진 변수와 연속 변수간에 임의의 상관 데이터 생성
두 개의 변수를 생성하고 싶습니다. 하나는 이진 결과 변수 (성공 / 실패)이고 다른 하나는 나이 (년)입니다. 나는 나이가 성공과 긍정적으로 상관되기를 원합니다. 예를 들어, 연령대가 높을수록 나이가 적을수록 성공이 더 높아야합니다. 이상적으로 상관 정도를 제어 할 수있는 위치에 있어야합니다. 어떻게합니까? 감사

2
이진 행렬 클러스터링
250k x 100 차원 의 이진 피처 로 반 소형 행렬이 있습니다 . 각 행은 사용자이며 열은 일부 사용자 동작의 이진 "태그"입니다 (예 : "likes_cats"). user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 …


4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.