중첩 교차 검증 후 최종 모델을 작성하고 확률 임계 값을 조정하는 방법은 무엇입니까?

먼저, 여기 , 여기 , 여기 , 여기 , 여기 에서 이미 오랫동안 논의 된 질문을 게시 한 것에 대해 사과드립니다이전 주제를 재가열합니다. 나는 @DikranMarsupial 이이 주제에 대해 게시물과 저널 논문에 길게 쓴 것을 알고 있지만 여전히 혼란스럽고 비슷한 게시물 수를 판단하면 다른 사람들이 이해하기 어려워합니다. 또한 혼란에 추가 한이 주제에 대해 모순을 받았다고 진술해야합니다. 또한 제가 원래 물리학 자이고 통계학자가 아니라는 것을 알고 있어야합니다. 따라서 여기의 도메인 전문 지식은 다소 제한적입니다. 중첩 된 CV를 사용하여 최종 모델에서 기대할 수있는 성능을 평가하려는 저널을 작성하고 있습니다. 내 도메인에서는 이것이 첫 번째입니다. (우리는 거의 사용 하지 않습니다내 분야에서 강력한 이력서의 형태이지만 신경망과 의사 결정 트리를 사용한 연구 결과로 논문을 기꺼이 펌핑하십시오!) 따라서, 내가 철저히 이해하고 명확하게 이해하여 전파하거나 전파하지 않도록하는 것이 매우 중요합니다 몇 년 동안 배우지 못한 커뮤니티에 잘못된 절차가있었습니다! 감사! 질문으로 ...

중첩 된 교차 유효성 검사 후 최종 모델을 어떻게 작성합니까?

L1 및 L2 정규화로 간단한 glmnet 모델을 훈련하고 있습니다. 빠르고 간단하며 해석이 가능합니다. 피처 분포가 평균 중심화되고 표준화되었으며 다소 가우시안과 비슷하도록 피쳐 중심화, 스케일링 및 Box-Cox 변환을 수행합니다. 정보 유출을 방지하기 위해 교차 검증 내에서이 단계를 수행합니다. 순전히 하드웨어가 느리고 CPU 사용량이 많지 않기 때문에 기능 사전 처리 후 CV 내에서 빠른 필터 기반 기능을 선택합니다. 임의 그리드 검색을 사용하여 알파 및 람다 하이퍼 파라미터를 선택하고 있습니다. 나는 내가해야한다는 것을 이해한다 '이 추정치를 얻기위한 CV 루프. 내부 CV 루프는 모델 선택 (이 경우 최적 하이퍼 파라미터)에 사용되며 외부 루프는 모델 평가에 사용됩니다 . 즉, 내부 및 외부 CV는 종종 잘못 혼동되는 두 가지 다른 용도로 사용됩니다. (지금까지 어떻게 지내고 있습니까?)

이제 내가 게시 한 링크는 "교차 유효성 검사를 생각하는 방법은 모델의 성능을 추정하기보다는 모델을 작성하는 방법을 사용하여 얻은 성능을 추정하는 것"이라고 제안합니다. 주어진 중첩 CV 프로 시저의 결과를 어떻게 해석해야합니까?

내가 읽은 조언은 다음을 나타내는 것으로 보입니다 .- 이것이 잘못되면 나를 수정하십시오. 내부 CV는 glmnet 모델의 최적의 알파 및 람다 하이퍼 매개 변수를 선택할 수있는 메커니즘의 일부입니다. 외부 CV는 하이퍼 파라미터 튜닝 및 전체 데이터 세트 를 사용하여 최종 모델을 빌드하는 것을 포함 하여 내부 CV에서 사용 된 절차를 정확하게 적용하면 최종 모델에서 얻을 수있는 추정치를 알려줍니다 . 즉, 하이퍼 파라미터 튜닝은 "모델 구축 방법"의 일부입니다. 이것이 맞습니까? 이것이 나를 혼란스럽게 만드는 이유입니다. 다른 곳에서 배포 할 최종 모델을 구축하는 절차에는 고정 된 값을 사용하여 전체 데이터 세트에 대한 교육이 포함 됩니다.CV를 사용하여 선택한 하이퍼 파라미터 여기서 "모델 구축 방법"에는 튜닝이 포함되지 않습니다. 그래서, 그것은 무엇입니까? 어떤 시점에서 최적의 하이퍼 파라미터가 선택되어 최종 모델을 구축 할 수 있습니다! 어디? 어떻게? 내부 루프가 5 배 CV이고 외부 루프가 5 배 CV이고 내부 CV에서 랜덤 그리드 검색의 일부로 테스트 할 100 점을 선택하면 실제로 glmnet을 몇 번 훈련합니까? 모델? 최종 빌드의 경우 (100 * 5 * 5) + 1 또는 내가 모르는 단계가 더 있습니까?

기본적으로 중첩 CV의 성능 추정을 해석하는 방법과 최종 모델을 작성하는 방법에 대한 명확한 설명이 필요합니다.

또한 최종 glmnet 모델의 확률 점수를 (이진) 클래스 레이블로 변환하기위한 확률 임계 값을 선택하는 적절한 절차를 알고 싶습니다. CV의 또 다른 루프가 필요합니까?

— 앤드류 존 로우
소스

중첩없이 설명 된 중첩 교차 검증

교차 검증 및 모델 구축을 보는 방법은 다음과 같습니다. 나는 화학자이며 응용 프로그램 측면에서 모델 구축 프로세스 (아래 참조)를 보는 것과 같습니다. 내 주요 요점은 내 관점에서 전적으로 중첩 된 다양한 교차 유효성 검사 가 필요하지 않습니다 . 검증 방법 (예 : 교차 검증)과 모델 학습 기능이 필요합니다.

model = f (training data)

"내"모델 훈련 기능이 f 있는 하이퍼 파라미터를 필요로하지 않는다 내부적으로 모든 hyperparameter 조정을 수행하기 때문에 (예를 들어, 당신 alpha, lambda그리고 threshold).

다시 말해, 내 훈련 기능에는 여러 가지 내부 교차 검증 (또는 부적합 또는 성능 추정치가 유용 할 수 있음)이 포함될 수 있습니다. 그러나 매개 변수 와 하이퍼 파라미터 의 차이점은 일반적으로 하이퍼 파라미터 를 데이터 세트 / 응용 프로그램에 맞게 조정해야하지만 매개 변수는 데이터에 관계없이 맞출 수 있다는 것입니다. 따라서 새로운 분류 알고리즘 개발자의 관점에서 볼 g (training data, hyperparameters)때 데이터와 하이퍼 파라미터가 주어진 경우 매개 변수에 맞는 "네이 키 된"피팅 함수 ( ) 만 제공하는 것이 합리적 입니다.

"외부"교육 기능을 사용하는 요점은 f교차 유효성 검사를 실행 한 후 "전체 데이터 세트"를 학습하는 간단한 방법을 제공한다는 것 입니다. 교차 유효성 검사 대리 모델을 f (whole data set)호출 하는 대신에 사용 하십시오 f (cv split training data).

따라서 귀하의 예에서는에 5 + 1 건의 호출이 f있으며 각에 대한 호출 건 수 f는 100 * 5 건 g입니다.

확률 임계 값

또 다른 교차 검증으로이 작업을 수행 할 수 있지만, 이것은 필요하지 않습니다. 바로 사용할 수있는 모델이 있고 내부에서 추정 할 수있는 하나 이상의 하이퍼 파라미터 일뿐 f입니다.

수정해야 할 것은 그러한 임계 값을 계산할 수있는 휴리스틱입니다. 다양한 휴리스틱이 있습니다 (ROC부터 최소 허용 감도 또는 특이성 또는 PPV 또는 NPV에 대한 잘못된 부정과 비교하여 잘못된 예측을 피하는 것이 얼마나 중요한지 지정하면 두 개의 임계 값을 허용하고 따라서 "불확실한"(NA) 수준 등) ) 다양한 상황에 적합합니다. 우수한 휴리스틱은 일반적으로 응용 프로그램마다 매우 다릅니다.

그러나 여기 질문 f에 대해서는 내부 교차 검증 중에 얻은 예측을 사용하여 ROC를 계산 한 다음 이에 따라 작업 지점 / 임계 값을 찾을 수 있습니다.

질문 부분에 대한 구체적인 의견

나는 최종 모델의 기대 성능에 대한 추정치로 최적 하이퍼 파라미터를 선택하는 데 사용 된 CV의 성능을보고해서는 안되며 (이는 지나치게 낙관적 임) 대신이 추정치를 얻기 위해 외부 CV 루프를 포함해야한다는 것을 이해합니다. .

예. 내부 추정치는 외부 추정과 관련하여 정보를 전달하지만 외부 추정보다 훨씬 최적화 된 경우 일반적으로 과적 합합니다.

내부 CV 루프가 모델 선택에 사용된다는 것을 이해합니다

컷오프 임계 값 튜닝이 포함 된 모든 종류의 데이터 중심 모델 튜닝.

(이 경우 최적 하이퍼 파라미터) 외부 루프는 모델 평가에 사용됩니다. 즉, 내부 및 외부 CV는 종종 잘못 혼동되는 두 가지 다른 목적에 사용됩니다.

예.

즉, 하이퍼 파라미터 튜닝은 "모델 구축 방법"의 일부입니다.

나는 또한 이런 방식으로 보는 것을 선호한다. 나는 화학자이고 응용 프로그램 측면에서 본 것처럼 하이퍼 파라미터가 없으면 훈련 된 / 적합 모델이 완전하지 않거나 더 정확하게는 모델이 직접 사용할 수있는 것입니다. 예측을 얻습니다. 참고로 다른 사람들은 하이퍼 파라미터 튜닝없이 다른 관점을 가지고 있습니다. 내 경험상, 이것은 종종 새로운 모델을 개발하는 사람들의 경우입니다. 하이퍼 파라미터 튜닝은 "해결 된 문제"이며 고려되지 않습니다. (주의 사항 : 유효성 검사 측면에서 교차 유효성 검사가 수행 할 수있는 것에 대한 견해는 응용 프로그램 측면에서 교차 유효성 검사가 수행 할 수있는 것과 약간 다릅니다.)

— SX에 불만족
소스