Leave-One-Out 교차 검증을 위해 ROC 곡선을 어떻게 생성합니까?


10

5 배 교차 검증을 수행 할 때 (예를 들어), 5 배 각각에 대해 별도의 ROC 곡선을 계산하고 종종 std를 사용하여 평균 ROC 곡선을 곱하는 것이 일반적입니다. dev. 곡선 두께로 표시됩니다.

그러나 각 접기마다 단일 테스트 데이터 포인트 만있는 LOO 교차 유효성 검사의 경우이 단일 데이터 포인트에 대한 ROC "곡선"을 계산하는 것은 이치에 맞지 않습니다.

모든 테스트 데이터 포인트를 (별도로 계산 된 p- 값과 함께) 가져와 단일 ROC 곡선을 계산하기 위해 하나의 큰 세트로 풀링했지만 통계적으로 정직한 작업입니까?

각 접기에서 데이터 포인트의 수가 하나 일 때 ROC 분석을 적용하는 올바른 방법은 무엇입니까 (LOO 교차 검증의 경우처럼)?


왜? 그런 생물로 무엇을 성취하고 싶습니까?

다양한 p- 값 임계 값에 대한 전체 예측 성능을 분석해야하며 ROC 곡선은 전통적으로 다른 모든 유형의 교차 검증에 사용 된 것입니다. 따라서 기본적으로 ROC 분석이 k- 폴드 교차 검증에 유용하다는 동일한 이유가 있습니다. LOO xval에 대해 다른 유사한 접근 방식이 있다면 그 사실을 아는 것도 좋습니다. 또한 충분한 데이터가 있고 문제가되지 않으면 10 배 xval과 같은 작업을 수행합니다.
user1121

1
나는 당신이 그것을 현명하게하고 있다고 말하고, 단순히 실제 lable과 각각의 경우에 대해 예측 된 값을 사용하여 단일 ROC 곡선을 만듭니다 (그 경우가 보류 된 곳)
B_Miner

답변:


15

분류 기가 확률을 출력하는 경우 단일 ROC 곡선에 대한 모든 테스트 포인트 출력을 결합하는 것이 적절합니다. 그렇지 않은 경우 분류기의 출력을 분류기 전체에서 직접 비교할 수있는 방식으로 조정하십시오. 예를 들어 선형 판별 분석을 사용한다고 가정하십시오. 분류기를 훈련시킨 다음 분류기를 통해 훈련 데이터를 넣습니다. 스케일 매개 변수 (클래스 평균을 뺀 후 분류기 출력의 표준 편차)와 시프트 매개 변수 (첫 번째 클래스의 평균)의 두 가지 가중치를 알아 봅니다. 이 매개 변수를 사용 하여 를 통해 각 LDA 분류기 의 원시 출력 을 정규화하십시오σμrn=(rμ)/σ정규화 된 출력 세트에서 ROC 곡선을 작성할 수 있습니다. 여기에는 더 많은 매개 변수를 추정한다는 경고가 있으므로 별도의 테스트 세트를 기반으로 ROC 곡선을 구성하는 경우보다 결과가 약간 벗어날 수 있습니다.

분류기 출력을 정규화하거나 확률로 변환 할 수없는 경우 LOO-CV를 기반으로하는 ROC 분석이 적합하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.