통계 및 빅 데이터 gini

2

분류 및 회귀 트리를 연구하고 있으며 분할 위치의 측정 방법 중 하나는 GINI 점수입니다. 이제 두 분포간에 동일한 데이터의 우도 비율에 대한 로그가 0 일 때 최적의 분할 위치를 결정하는 데 익숙합니다. 즉, 멤버쉽 가능성도 동일합니다. 내 직감에 따르면 어떤 종류의 연결이 있어야하며 GINI는 수학적 정보 이론 (Shannon)에 좋은 기초를 …

21 cart likelihood-ratio information-theory kullback-leibler gini

1

Breiman의 임의 포리스트는 정보 획득 또는 Gini 인덱스를 사용합니까?

Breiman의 임의 포리스트 (R randomForest 패키지의 임의 포리스트)가 분할 기준 (속성 선택 기준) 정보 획득 또는 Gini 인덱스로 사용되는지 알고 싶습니다. http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm 및 R의 randomForest 패키지에 대한 설명서에서 찾아 보았습니다 . 그러나 찾은 유일한 것은 Gini 인덱스를 사용할 수 있다는 것입니다. 가변 중요도 컴퓨팅.

15 r random-forest entropy gini

1

logloss vs gini / auc

두 가지 모델 (h2o AutoML을 사용하는 이진 분류기)을 훈련했으며 사용할 모델을 선택하려고합니다. 다음과 같은 결과가 있습니다. model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 auc과 logloss열이 교차 유효성 검사 측정 항목 (교차 검증은 훈련 데이터를 사용). ..._train및 …

15 model-selection validation auc gini log-loss

1

AUC 대신 정규화 된 Gini Score를 평가로 사용하는 이유는 무엇입니까?

Kaggle의 경쟁 Porto Seguro의 Safe Driver Prediction 은 Normalized Gini Score를 평가 지표로 사용 하므로이 선택에 대한 이유가 궁금합니다. 평가에 AUC와 같은 가장 일반적인 지표 대신 정규화 된 gini 점수를 사용하는 이점은 무엇입니까?

14 classification auc model-evaluation gini

1

GINI와 AUC 곡선 해석의 차이점은 무엇입니까?

우리는 스코어 카드 모델링을 위해 좋은 비율과 나쁜 비율의 도움으로 생성 된 리프트를 사용하여 GINI 곡선을 만들었습니다. 그러나 내가 연구 한 것은 ROC 곡선이 x 축으로 특이성 (1- True Negative)과 Y 축으로 감도 (true positive)를 갖는 Confusion matrix를 사용하여 생성된다는 것입니다. 따라서 GINI와 ROC의 결과는 하나의 차이점과 동일하지만 후자는 또한 …

13 roc gini

3

차이는 요약 통계입니다 : Gini 계수 및 표준 편차

몇 가지 요약 통계가 있습니다. 분포의 분포를 설명하려는 경우 표준 편차 또는 Gini 계수 등을 사용할 수 있습니다 . 표준 편차는 중심 경향, 즉 평균 편차와 Gini 계수, 분산의 일반적인 측정치를 기반으로한다는 것을 알고 있습니다. 또한 Gini 계수는 하한과 상한을 가지고 있으며 표준 편차는 없습니다 . 이러한 속성을 아는 것이 …

12 standard-deviation descriptive-statistics gini

4

StackOverflow 평판 분포에서 Gini 지수를 계산하려고합니까?

SO Data Explorer를 사용하여 SO 평판 분포에서 Gini 지수를 계산하려고합니다. 내가 구현하려는 방정식은 다음과 같습니다 여기서, = 사이트의 사용자 수; = 사용자 일련 ID (1-1,225,000); = 사용자 평판 .지 ( S)) = 1n - 1( N + 1 - 2 ( ∑엔나는 = 1( n + 1 − i ) …

11 gini

1

지니 계수 및 오차 한계

각 시점에서 N = 14 카운트의 시계열 데이터가 있으며 각 시점 에서이 추정치에 대한 Gini 계수 및 표준 오류를 계산하려고합니다. 각 시점에서 N = 14 카운트 만 있기 때문에 jackknife 분산을 계산하여 진행했습니다. 즉 톰슨 Ogwang의 식 (7)로부터표준 오차 '지니 인덱스와를 계산하는 편리한 방식'. 여기서G는(N,K는)요소없이 N 값 지니 계수K와 ˉ …

11 r variance econometrics resampling gini

5

단어 빈도 데이터의 분산을 측정하는 방법은 무엇입니까?

단어 개수로 구성된 벡터에서 분산 량을 어떻게 정량화 할 수 있습니까? 자주 발생하지 않는 여러 단어가 포함되어 있기 때문에 문서 A에 대해 높은 통계를 찾고 있는데, 자주 발생하는 단어 하나 (또는 몇 단어)가 포함되어 있기 때문에 문서 B에 대해서는 낮습니다. 보다 일반적으로 명목 데이터의 분산 또는 "확산"을 어떻게 측정합니까? 텍스트 …

10 variance natural-language gini dispersion bag-of-words

1

관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?

4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

«gini» 태그된 질문