교정을 측정하기위한 최상의 메트릭을 어떻게 선택합니까?


10

테스트 중심 개발을 프로그래밍하고 수행합니다. 코드를 변경 한 후 테스트를 실행합니다. 때때로 그들은 성공하고 때로는 실패합니다. 테스트를 실행하기 전에 테스트가 성공할 것이라는 신뢰를 위해 0.01에서 0.99 사이의 숫자를 기록합니다.

테스트의 성공 여부를 예측하는 데있어 개선되고 있는지 알고 싶습니다. 테스트가 월요일 또는 금요일에 성공할지 예측하는 것이 더 나은지 여부를 추적 할 수 있다면 좋을 것입니다. 테스트 성공을 예측할 수있는 능력이 내가 추적하는 다른 메트릭과 관련이 있다면 알고 싶습니다.

그 결과 올바른 측정 항목을 선택해야합니다. Superforcasting에서 Philip Tetlock은 전문가의 교정 수준을 측정 하기 위해 Brier 점수 를 사용할 것을 제안 합니다. 문헌에서 제안 된 또 다른 메트릭은 로그 스코어링 규칙 입니다. 다른 후보들도 있습니다.

사용할 측정 항목을 어떻게 결정합니까? 하나의 점수 규칙을 다른 규칙보다 선호한다는 주장이 있습니까?


1
예측 기술의 변화를 측정하는 데있어 어려움의 잠재적 원인은 예측 문제의 근본적인 어려움이 바뀔 수 있다는 것입니다. 기술의 변화는 문제 난이도의 변화와 구별되지 않을 수 있습니다.
Matthew Gunn

답변:


1

코드에 대해 단위 테스트를 수행한다고 가정합니다.

내가 생각할 수있는 한 가지 아이디어는 아마도 원하는 것을 정확하게하지 않을 것입니다. 선형 모델을 사용하는 것입니다.

그렇게하는 것의 장점은 분석에 포함 할 수있는 다른 변수들을 만들 수 있다는 것입니다.

테스트 결과를 포함하는 벡터와 결과 예측을 포함하는 다른 벡터가 있다고 가정 해 봅시다 .Yx

이제 선형 모델을 간단히 맞출 수 있습니다

yi=a+bxi+ϵ

와의 값 찾을 ,의 높은 값 당신의 예측이 잘되고 있음을 나타냅니다.bb

이 접근 방식을 멋지게 만드는 것은 이제 다른 변수를 추가하여 더 나은 모델을 만드는지 확인할 수 있으며 이러한 변수가 더 나은 예측을 만드는 데 도움이 될 수 있다는 것입니다. 변수는 요일의 지표가 될 수 있습니다. 예를 들어 월요일의 경우 항상 1이고 다른 모든 요일에는 0입니다. 모델에 해당 변수를 포함 시키면 다음과 같은 결과가 나타납니다.

yi=a+aMonday+bxi+ϵ

변수 가 유의하고 긍정적 인 경우 월요일 예측에서 더 보수적임을 의미 할 수 있습니다.aMonday

수행 한 작업의 난이도를 평가하기 위해 점수를 매기는 새 변수를 만들 수도 있습니다. 버전 관리 기능이 있으면 코드 줄 수를 난이도로 사용할 수 있습니다. 예를 들어 코드를 많이 작성할수록 문제가 발생할 가능성이 높습니다.

다른 변수, 그날 커피 컵 수, 곧 마감일 표시기, 물건을 마무리하는 데 더 많은 스트레스가 있음을 의미합니다.

시간 변수를 사용하여 예측이 나아지는지 확인할 수도 있습니다. 또한 작업에 소요 된 시간 또는 작업에 소요 된 세션 수 (빠른 수정을 수행했는지 여부에 상관없이)

결국 성공 가능성을 예측할 수있는 예측 모델이 있습니다. 이것을 만들면 자신 만의 예측을 할 필요조차 없을 것입니다. 모든 변수를 사용하고 일이 잘 될지 꽤 잘 추측 할 수 있습니다.

문제는 단일 숫자 만 원한다는 것입니다. 이 경우 처음에 제시 한 간단한 모델을 사용하고 기울기를 사용하고 각 기간에 대한 계산을 다시 실행하면 시간이 지남에 따라 해당 점수에 추세가 있는지 확인할 수 있습니다.

도움이 되었기를 바랍니다.


1
나는 더 높은 경사 (주장 것이다 당신의 간단한 모델은) 항상 더 나은 예측에 해당하지 않는 : 로지스틱 회귀 가정을하면 = 반면, 결과의 관찰 확률 /를 '진정한' 예측 확률보다이며, 0이어야하며, 모든 높은 1.해야한다 동안, 결과의 overprediction 제안 1 underprediction을 제안보다. 이 방법은 실제로 내가 대답 한 참고 문헌에 설명되어 있습니다. 요컨대,이 기울기 방법은 사용하기에 좋지만 1 근처의 기울기가 가장 좋습니다 ( = 0 인 경우). bYxabbba
IWS

@IWS 의견을 보내 주셔서 감사합니다. 성능을 평가하기 위해 단일 값을 원하는 정도까지 귀하에게 동의 한 다음 차단을 생략하는 것이 좋습니다. 데이터를 더 이상 해석하려는 경우 (충분한 데이터가있는 경우) 절편을 추가하고 모델을 비교하는 것이 좋습니다.
Gumeo

1

이것은 답변이 아니며 참고 자료와는 거리가 멀지 만 Steyerberg E-Epidemiology 2012 를 확인하는 것이 좋습니다 .

이 기사에서 Steyerberg와 동료는 이진 결과 (성공 또는 실패)가있는 모델의 예측 모델 성능을 확인하는 다양한 방법을 설명합니다. 교정은 이러한 측정 중 하나 일뿐입니다. 정확한 확률 , 정확한 분류 또는 정확한 재 분류 를 원하는지 여부에 따라 다른 모델 성능 측정 값을 사용할 수 있습니다. 이 원고가 생물 의학 연구에 사용되는 모델에 관한 것이지만 다른 상황에도 적용 할 수 있다고 생각합니다.

상황에 더 구체적으로, 캘리브레이션 메트릭은 가능한 모든 예측 범위에 대한 캘리브레이션을 요약 (즉 평균)하기 때문에 해석하기가 실제로 어렵습니다. 결과적으로, 교정 요약 점수가 좋은 반면 예측이 중요한 예측 확률 범위에서 벗어 났을 수 있습니다 (예 : 낮은 점수 (= 좋은)가있을 수 있음). 예측 확률) 또는 그 반대 (불량한 요약 점수, 예측은 중요한 영역에서 잘 보정 됨). 따라서 귀하의 케이스에 그러한 임계 확률 확률 범위가 존재하는지에 대해 생각할 것을 제안합니다. 그렇다면 적절한 조치 (예 : 재 분류 지수)를 사용하십시오. 그렇지 않은 경우 (전체 교정에 관심이 있음을 의미) brier,

결론적으로, 캘리브레이션 요약 측정 중 하나를 수행하려면 예측 확률과 관측 된 확률을 비교하는 첫 번째 단계가 필요합니다 (예를 들어, 특이 치의 답변 참조). 다음으로 요약 측정을 계산할 수 있지만 요약 측정의 선택은 우선 실패의 성공을 예측하는 목표를 반영해야합니다.


0

희소 데이터에 대한 예측 모델을 수행했으며 이러한 경우 모델을 교정하는 것이 큰 과제입니다. 내가 한 일을 말해 주면 도움을받을 수 있습니다.

나는 20 개의 빈 확률 예측을 만들고 평균 예측 확률과 실제 성공 확률을 나타내려고 노력했다. 평균 예측 확률에 대해서는 구간 범위의 평균을 취했습니다. 평균 실제 확률에 대해서는 빈에서 실제 성공 및 실패 횟수를 계산하여 빈에서 실제 (중간) 성공 확률을 얻었습니다. 특이 치의 영향을 줄이기 위해 각 구간에서 실제 중앙값 확률을 얻기 전에 상위 및 하위 5 % 데이터를 제거했습니다.

일단 이것을 얻으면 쉽게 데이터를 그릴 수 있습니다.


이것이 Hosmer-Lemeshow 적합도 검정을 계산하는 첫 번째 단계임을 지적하는 것이 좋습니다.
jwimberley
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.