«precision-recall» 태그된 질문

P & R은 검색된 인스턴스 세트의 관련성을 측정하는 방법입니다. 정밀도는 검색된 모든 인스턴스 중에서 올바른 인스턴스의 %입니다. 관련성은 검색된 실제 인스턴스의 비율입니다. P & R의 조화 평균은 F1 점수입니다. P & R은 데이터 마이닝에서 분류자를 평가하는 데 사용됩니다.

3
ROC vs 정밀 및 회수 곡선
나는 그들 사이의 공식적인 차이점을 알고 있습니다. 내가 알고 싶은 것은 하나를 사용하는 것이 더 관련성이 높은시기입니다. 그들은 주어진 분류 / 탐지 시스템의 성능에 대한 보완적인 통찰력을 항상 제공합니까? 예를 들어 종이로 두 가지를 모두 제공하는 것이 합리적입니까? 하나 대신에? 분류 시스템에 대한 ROC 및 정밀 리콜의 관련 측면을 캡처하는 …

3
혼동 행렬을 사용하여 멀티 클래스 분류의 정밀도를 계산하고 리콜하는 방법은 무엇입니까?
멀티 클래스 분류 문제에 대해 혼동 행렬을 사용하여 정밀도를 계산하고 호출하는 방법이 궁금합니다. 특히 관측치는 가장 가능성있는 클래스 / 라벨에만 할당 할 수 있습니다. 나는 계산하고 싶다 : 정밀도 = TP / (TP + FP) 리콜 = TP / (TP + FN) 각 클래스에 대해 마이크로 평균 F 측정을 계산합니다.


9
F- 측정 값을 해석하는 방법?
f- 측정 값의 차이를 해석하는 방법을 알고 싶습니다. 나는 f- 측정이 정밀도와 리콜 사이의 균형 잡힌 평균이라는 것을 알고 있지만 F- 측정 차이의 실질적인 의미에 대해 묻고 있습니다. 예를 들어 분류기 C1의 정확도가 0.4이고 다른 분류기 C2의 정확도가 0.8 인 경우 C2가 C1과 비교하여 두 가지 테스트 예를 올바르게 분류했다고 …

4
클래스 불균형 하에서 정밀 리콜 곡선 최적화
나는 많은 예측 변수가있는 분류 작업을 가지고 있는데 (그중 하나가 가장 유익합니다) MARS 모델을 사용하여 분류기를 구성하고 있습니다 (나는 간단한 모델에 관심이 있으며 설명을 위해 glms를 사용하는 것은 다음과 같습니다) 미세 너무). 이제 훈련 데이터 (각 양성 샘플에 대해 약 2700 개의 음성 샘플)에 큰 클래스 불균형이 있습니다. Information Retrieval …

1
sklearn의 분류 보고서에서 숫자는 무엇을 의미합니까?
sklearn의 sklearn.metrics.classification_report 문서에서 가져온 예가 아래에 있습니다. 내가 이해하지 못하는 것은 클래스가 예측 변수라고 생각되는 각 클래스에 대해 f1 점수, 정밀도 및 리콜 값이있는 이유입니다. f1 점수는 모델의 전체 정확도를 나타냅니다. 또한 지원란에서 무엇을 알려줍니까? 나는 그것에 관한 정보를 찾을 수 없었다. print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class …

2
정밀 회수 곡선 (PR- 곡선의 AUC) 및 평균 정밀 (AP) 영역
평균 정밀도 (AP)는 정밀도-회귀 곡선 (PR- 곡선의 AUC) 하의 영역입니까? 편집하다: 다음은 PR AUC와 AP의 차이점에 대한 의견입니다. AUC는 정밀도의 사다리꼴 보간에 의해 얻어진다. 대체적이고 대체로 거의 동등한 메트릭은 info.ap로 반환되는 평균 정밀도 (AP)입니다. 이것은 새로운 양의 샘플이 리콜 될 때마다 얻은 정밀도의 평균입니다. 정밀도가 일정한 세그먼트에 의해 보간되고 TREC에서 …

1
F1 / 주사위 점수 vs IoU
F1 점수, 주사위 점수 및 IoU (노조에 대한 교차점)의 차이에 대해 혼란 스러웠습니다. 지금까지 나는 F1과 Dice가 같은 것을 의미한다는 것을 알았고 (오른쪽?) IoU는 다른 두 가지와 매우 유사한 공식을 가지고 있습니다. F1 / 주사위 : 2TP2TP+FP+FN2TP2TP+FP+FN\frac{2TP}{2TP+FP+FN} IoU / 자카드 : TPTP+FP+FNTPTP+FP+FN\frac{TP}{TP+FP+FN} F1이 실제 양성에 가중치를 부여한다는 점을 제외하고는 실질적인 …

3
불균형이 높은 데이터에 대한 분류 / 평가 지표
사기 감지 (신용 채점) 문제를 처리합니다. 따라서 사기와 비 사기 관찰 사이에는 불균형 관계가 있습니다. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html 은 다양한 분류 지표에 대한 훌륭한 개요를 제공합니다. Precision and Recall또는 kappa둘 다 좋은 선택 인 것 같습니다. 이러한 분류기의 결과를 정당화하는 한 가지 방법은 결과를 기준 분류기의 결과와 비교하고 결과가 무작위 확률 예측보다 …

4
엣지 케이스의 정밀도 및 리콜에 대한 올바른 값은 무엇입니까?
정밀도는 다음과 같이 정의됩니다. p = true positives / (true positives + false positives) 로, 즉를 정확 true positives하고 false positives, 정밀도가 한 접근 방식 0? 리콜에 대한 동일한 질문 : r = true positives / (true positives + false negatives) 현재이 값을 계산 해야하는 통계 테스트를 구현 중이며 때로는 …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
불균형 데이터 셋의 ROC vs 정밀 리콜 곡선
방금 이 토론을 읽었습니다 . 그들은 PR AUC가 불균형 데이터 세트에서 ROC AUC보다 낫다고 주장합니다. 예를 들어 테스트 데이터 세트에 10 개의 샘플이 있습니다. 9 개의 샘플은 양수이고 1은 음수입니다. 모든 것을 긍정적으로 예측하는 끔찍한 모델이 있습니다. 따라서 TP = 9, FP = 1, TN = 0, FN = 0이라는 …

3
불균형 데이터의 경우 ROC 곡선 아래 영역 또는 PR 곡선 아래 영역?
사용할 성능 측정, ROC 곡선 아래 영역 (FPR의 함수로서 TPR) 또는 정밀 회수 곡선 아래 영역 (리콜 함수로서의 정밀도)에 대해 의문이 있습니다. 내 데이터가 불균형합니다. 즉, 부정적인 인스턴스의 수가 긍정적 인 인스턴스보다 훨씬 많습니다. weka의 출력 예측을 사용하고 있으며 샘플은 다음과 같습니다. inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 …

5
교육 데이터를 늘리면 전체 시스템 정확도에 어떤 영향이 있습니까?
어떤 상황에서 훈련 데이터를 늘리면 전체 시스템이 향상 될 수 있는지 예를 들어 누군가를 요약 해 줄 수 있습니까? 더 많은 훈련 데이터를 추가하면 데이터가 과적 합 될 수 있고 테스트 데이터에 대한 정확도가 높지 않다는 것을 언제 감지 할 수 있습니까? 이것은 매우 구체적이지 않은 질문이지만 특정 상황에 대한 …


4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.