테스트 데이터 세트에 적용 할 훈련 된 로지스틱 회귀 모델이 있습니다. 종속 변수는 이진 (부울)입니다. 테스트 데이터 세트의 각 샘플에 대해 로지스틱 회귀 모델을 적용하여 종속 변수가 참일 확률을 %로 생성합니다. 그런 다음 acutal 값이 true인지 false인지 기록합니다. 선형 회귀 모델에서와 같이 또는 조정 된 그림 을 계산하려고합니다 .R 2
테스트 세트의 각 샘플에 대한 레코드는 다음과 같습니다.
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
모델의 정확성을 테스트하는 방법이 궁금합니다. 첫 번째 시도는 우발 사태 테이블을 사용하여 " prob_value_is_true
0.80보다 크면 실제 값이 참이라고 생각합니다 "라고 말한 다음 올바른 분류와 잘못된 분류의 비율을 측정하는 것입니다. 그러나 나는 0.80을 경계로 평가하는 것처럼 느껴지기 때문에 모델 전체의 정확성과 모든 prob_value_is_true
값 의 정확성이 아닙니다 .
그런 다음 각 prob_value_is_true 이산 값을 예를 들어 prob_value_is_true
= 0.34 인 모든 샘플을보고 절단 값이 참인 샘플의 %를 측정하려고했습니다 (이 경우 샘플의 %가 그건 사실 = 34 %). 각 이산 값에서의 차이를 합산하여 모델 정확도 점수를 만들 수 있습니다 prob_value_is_true
. 그러나 표본 크기는 특히 극단적 인 경우 (0 % 또는 100 %) 극한의 경우에 큰 관심사입니다. 따라서 평균값이 정확하지 않으므로 모델 정확도를 측정하는 데 적합하지 않습니다.
나는 충분한 표본 크기 (0-.25, .25-.50, .50-.75, .75-1.0)를 보장하기 위해 거대한 범위를 만들려고 시도했지만 실제 값의 %에 대한 "양호도"를 측정하는 방법 . prob_value_is_true
0.25와 0.50 사이의 모든 샘플 의 평균 acutal_value
이 0.45 라고 가정하십시오 . 그 범위에 있기 때문에 좋은가요? 37.5 % (범위의 중심)에 미치지 못해서 불량합니까?
그래서 나는 쉬운 질문이 될 것 같은 것에 갇혀 있으며 누군가가 나를 로지스틱 회귀 모델에 대한 정확성을 계산할 수있는 자원이나 방법을 가리킬 수 있기를 바라고 있습니다.