이진 로지스틱 회귀 모델의 수작업으로 곡선 아래 면적 (AUC) 또는 c- 통계량을 계산하는 데 관심이 있습니다. 예를 들어, 유효성 검사 데이터 집합에서 종속 변수에 대한 실제 값, 보존 (1 = 유지; 0 = 유지되지 않음)은 다음과 같은 모형을 사용하여 회귀 분석에 의해 생성 된 각 관측치의 예측 보존 상태를 갖습니다. …
AIC (Akaike Information Criterion)와 c- 통계량 (ROC 곡선 아래 면적)은 로지스틱 회귀 분석에 적합한 모형의 두 가지 측정치입니다. 두 측정 결과가 일치하지 않을 때 진행 상황을 설명하는 데 문제가 있습니다. 나는 그들이 모델 적합의 약간 다른 측면을 측정하고 있다고 생각하지만, 그 특정 측면은 무엇입니까? 3 가지 로지스틱 회귀 모형이 있습니다. …
두 개의 분류 기가 있습니다 A : 순진한 베이지안 네트워크 B : 트리 (단일 연결) 베이지안 네트워크 정확성 및 기타 측정 측면에서 A는 B보다 상대적으로 성능이 좋지 않지만 R 패키지 ROCR 및 AUC를 사용하여 ROC 분석을 수행하면 A의 AUC가 B의 AUC보다 높은 것으로 나타났습니다. 사고? 진 양성 (tp), 위양성 (fp), …
평균 정밀도 (AP)는 정밀도-회귀 곡선 (PR- 곡선의 AUC) 하의 영역입니까? 편집하다: 다음은 PR AUC와 AP의 차이점에 대한 의견입니다. AUC는 정밀도의 사다리꼴 보간에 의해 얻어진다. 대체적이고 대체로 거의 동등한 메트릭은 info.ap로 반환되는 평균 정밀도 (AP)입니다. 이것은 새로운 양의 샘플이 리콜 될 때마다 얻은 정밀도의 평균입니다. 정밀도가 일정한 세그먼트에 의해 보간되고 TREC에서 …
토론 : 이진 분류에 대한 roc 곡선을 생성하는 방법에 대해서는 혼란이 "이진 분류기"(2 개의 클래스를 분리하는 분류기 임)가 양의 "이산 분류기"( ANN 또는 Bayes 분류기와 같은 연속 출력이 아닌 SVM과 같은 개별 출력 0/1) 따라서 ROC가 "이진 연속 분류기"에 대해 표시되는 방법에 대한 논의가 이루어졌으며 그 결과는 출력이 정렬됩니다. 출력이 …
아래 이미지는 위양성 비율과 실제 양의 비율의 연속 곡선을 보여줍니다. 그러나 내가 즉시 얻지 못하는 것은 이러한 요율이 계산되는 방법입니다. 메소드가 데이터 세트에 적용되는 경우 특정 FP 속도 및 특정 FN 속도가 있습니다. 이것이 각 방법이 곡선이 아닌 단일 점을 가져야한다는 것을 의미하지 않습니까? 물론 방법을 구성하고 여러 가지 다른 …
전문 이것은 긴 글입니다. 이 내용을 다시 읽는다면 배경 자료는 동일하게 유지되지만 질문 부분을 수정했습니다. 또한 문제에 대한 해결책을 고안했다고 생각합니다. 해당 솔루션은 게시물 하단에 나타납니다. 내 원래 솔루션 (이 게시물에서 편집; 해당 솔루션의 편집 기록 참조)이 반드시 바이어스 된 추정치를 생성했음을 지적한 CliffAB에게 감사합니다. 문제 기계 학습 분류 문제에서 …
확률을 반환하는 분류기를 사용하고 있습니다. AUC를 계산하기 위해 pROC R 패키지를 사용하고 있습니다. 분류기의 출력 확률은 다음과 같습니다. probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probs클래스 '1'에있을 확률을 나타냅니다. 도시 된 바와 같이, 분류기는 모든 샘플을 클래스 '1'로 분류 하였다. 실제 레이블 벡터는 다음과 같습니다. truel=c(1, 1, …
사용할 성능 측정, ROC 곡선 아래 영역 (FPR의 함수로서 TPR) 또는 정밀 회수 곡선 아래 영역 (리콜 함수로서의 정밀도)에 대해 의문이 있습니다. 내 데이터가 불균형합니다. 즉, 부정적인 인스턴스의 수가 긍정적 인 인스턴스보다 훨씬 많습니다. weka의 출력 예측을 사용하고 있으며 샘플은 다음과 같습니다. inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 …
진단 시스템을위한 ROC 곡선을 구성했습니다. 곡선 아래 면적은 비모수 적으로 AUC = 0.89 인 것으로 추정되었다. 최적의 임계 값 설정 (점 (0, 1)에 가장 가까운 지점)에서 정확도를 계산하려고 할 때 진단 시스템의 정확도는 0.8로 AUC보다 작습니다! 최적의 임계 값과는 다른 다른 임계 값 설정에서 정확도를 확인했을 때 정확도는 0.92와 같습니다. …
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
커널 밀도 추정을 위해 R 의 ' density '기능 을 사용하려고합니다 . 곡선 아래 면적이 반드시 1 인 것처럼 보이지 않기 때문에 결과를 해석하고 다양한 데이터 세트를 비교하는 데 약간의 어려움이 있습니다. 확률 밀도 함수 (pdf) 경우 입니다. 커널 밀도 추정치가 pdf를보고한다고 가정합니다. 내가 사용하고 integrate.xy 에서 sfsmisc 곡선 아래의 …
두 가지 모델 (h2o AutoML을 사용하는 이진 분류기)을 훈련했으며 사용할 모델을 선택하려고합니다. 다음과 같은 결과가 있습니다. model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 auc과 logloss열이 교차 유효성 검사 측정 항목 (교차 검증은 훈련 데이터를 사용). ..._train및 …