«gini» 태그된 질문

지니 계수는 분류기의 소득 불평등과 차별 력을 측정하는 데 사용됩니다. 모든 사람의 소득이 같으면 지니 계수 = 0입니다. 한 사람이 모든 소득을 가졌다면 지니 계수 = 1입니다. 다른 모든 값은 그 사이 어딘가에 있습니다.

2
GINI 점수와 로그 우도 비율의 관계는 무엇입니까
분류 및 회귀 트리를 연구하고 있으며 분할 위치의 측정 방법 중 하나는 GINI 점수입니다. 이제 두 분포간에 동일한 데이터의 우도 비율에 대한 로그가 0 일 때 최적의 분할 위치를 결정하는 데 익숙합니다. 즉, 멤버쉽 가능성도 동일합니다. 내 직감에 따르면 어떤 종류의 연결이 있어야하며 GINI는 수학적 정보 이론 (Shannon)에 좋은 기초를 …

1
Breiman의 임의 포리스트는 정보 획득 또는 Gini 인덱스를 사용합니까?
Breiman의 임의 포리스트 (R randomForest 패키지의 임의 포리스트)가 분할 기준 (속성 선택 기준) 정보 획득 또는 Gini 인덱스로 사용되는지 알고 싶습니다. http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm 및 R의 randomForest 패키지에 대한 설명서에서 찾아 보았습니다 . 그러나 찾은 유일한 것은 Gini 인덱스를 사용할 수 있다는 것입니다. 가변 중요도 컴퓨팅.

1
logloss vs gini / auc
두 가지 모델 (h2o AutoML을 사용하는 이진 분류기)을 훈련했으며 사용할 모델을 선택하려고합니다. 다음과 같은 결과가 있습니다. model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 auc과 logloss열이 교차 유효성 검사 측정 항목 (교차 검증은 훈련 데이터를 사용). ..._train및 …


1
GINI와 AUC 곡선 해석의 차이점은 무엇입니까?
우리는 스코어 카드 모델링을 위해 좋은 비율과 나쁜 비율의 도움으로 생성 된 리프트를 사용하여 GINI 곡선을 만들었습니다. 그러나 내가 연구 한 것은 ROC 곡선이 x 축으로 특이성 (1- True Negative)과 Y 축으로 감도 (true positive)를 갖는 Confusion matrix를 사용하여 생성된다는 것입니다. 따라서 GINI와 ROC의 결과는 하나의 차이점과 동일하지만 후자는 또한 …
13 roc  gini 

3
차이는 요약 통계입니다 : Gini 계수 및 표준 편차
몇 가지 요약 통계가 있습니다. 분포의 분포를 설명하려는 경우 표준 편차 또는 Gini 계수 등을 사용할 수 있습니다 . 표준 편차는 중심 경향, 즉 평균 편차와 Gini 계수, 분산의 일반적인 측정치를 기반으로한다는 것을 알고 있습니다. 또한 Gini 계수는 하한과 상한을 가지고 있으며 표준 편차는 없습니다 . 이러한 속성을 아는 것이 …

4
StackOverflow 평판 분포에서 Gini 지수를 계산하려고합니까?
SO Data Explorer를 사용하여 SO 평판 분포에서 Gini 지수를 계산하려고합니다. 내가 구현하려는 방정식은 다음과 같습니다 여기서, = 사이트의 사용자 수; = 사용자 일련 ID (1-1,225,000); = 사용자 평판 .지 ( S)) = 1n - 1( N + 1 - 2 ( ∑엔나는 = 1( n + 1 − i ) …
11 gini 

1
지니 계수 및 오차 한계
각 시점에서 N = 14 카운트의 시계열 데이터가 있으며 각 시점 에서이 추정치에 대한 Gini 계수 및 표준 오류를 계산하려고합니다. 각 시점에서 N = 14 카운트 만 있기 때문에 jackknife 분산을 계산하여 진행했습니다. 즉 톰슨 Ogwang의 식 (7)로부터표준 오차 '지니 인덱스와를 계산하는 편리한 방식'. 여기서G는(N,K는)요소없이 N 값 지니 계수K와 ˉ …

5
단어 빈도 데이터의 분산을 측정하는 방법은 무엇입니까?
단어 개수로 구성된 벡터에서 분산 량을 어떻게 정량화 할 수 있습니까? 자주 발생하지 않는 여러 단어가 포함되어 있기 때문에 문서 A에 대해 높은 통계를 찾고 있는데, 자주 발생하는 단어 하나 (또는 ​​몇 단어)가 포함되어 있기 때문에 문서 B에 대해서는 낮습니다. 보다 일반적으로 명목 데이터의 분산 또는 "확산"을 어떻게 측정합니까? 텍스트 …

1
관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?
4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.