동전을 뒤집어 분류기 결합


15

기계 학습 과정을 공부하고 있는데 강의 슬라이드에는 권장 도서와 모순되는 내용이 포함되어 있습니다.

문제는 다음과 같습니다. 세 가지 분류 기가 있습니다.

  • 낮은 범위의 임계 값에서 더 나은 성능을 제공하는 분류기 A
  • 더 높은 범위의 임계 값에서 더 나은 성능을 제공하는 분류기 B
  • 분류기 C p-coin을 뒤집고 두 분류기에서 선택하여 얻는 것.

ROC 곡선에서 볼 때 분류기 C의 성능은 무엇입니까?

강의 슬라이드는이 동전을 뒤집는 것만으로 분류 자 A와 B의 ROC 곡선 의 마법적인 " 볼록 껍질 " 을 얻을 것이라고 말합니다.

나는이 점을 이해하지 못한다. 단순히 동전을 뒤집기 만하면 어떻게 정보를 얻을 수 있습니까?

강의 슬라이드

강의 슬라이드

이 책의 내용

반면 권장 책 ( Ian H. Witten, Eibe Frank 및 Mark A. Hall의 데이터 마이닝 )은 다음과 같이 말합니다.

이를 확인하려면 tA와 fA의 각각 true 및 false 포지티브 비율을 제공하는 방법 A에 대해 특정 확률 컷오프를 선택하고 tB와 fB를 제공하는 방법 B에 대한 다른 컷오프를 선택하십시오. p + q = 1 인 확률 p 및 q와 함께이 두 체계를 무작위로 사용하면 p의 true 및 false 긍정 비율을 얻을 수 있습니다. tA + q. tB 및 p. fA + q. fB. 이는 점 (tA, fA) 및 (tB, fB)을 연결하는 직선에있는 점을 나타내며 p와 q를 변경하여이 두 점 사이의 전체 선을 추적 할 수 있습니다.

필자가 이해하는 바에 따르면 실제로 정보를 얻고 볼록 껍질에 도달하려면 단순히 p- 코인을 뒤집는 것보다 더 진보 된 일을해야한다는 것입니다.

AFAIK의 올바른 방법은 (책에서 제안한대로) 다음과 같습니다.

  1. 분류 자 A에 대한 최적의 임계 값 Oa를 찾아야합니다.
  2. 분류 자 B에 대한 최적의 임계 값 Ob를 찾아야합니다.
  3. C를 다음과 같이 정의하십시오.

    • t <Oa 인 경우 t와 함께 분류 자 ​​A를 사용하십시오.
    • t> Ob이면 t와 함께 분류 자 ​​B를 사용하십시오.
    • Oa <t <Ob 인 경우 Oa와 Ob 사이의 위치의 선형 조합으로 확률을 기준으로 분류 자 ​​A와 Oa를, B와 Ob를 선택합니다.

이 올바른지? 그렇다면 슬라이드 제안과 비교하여 몇 가지 주요 차이점이 있습니다.

  1. 간단한 동전 뒤집기는 아니지만 어떤 지역에 따라 수동으로 정의 된 포인트와 선택이 필요한 고급 알고리즘입니다.
  2. Oa와 Ob 사이의 임계 값으로 분류 자 ​​A와 B를 사용하지 않습니다.

이 문제가 나에게 설명 할 수그것을 이해하는 올바른 방법은 무엇인가 에 대한 이해가 정확하지 않은 경우?

슬라이드가 제안하는 것처럼 단순히 p- 코인을 뒤집 으면 어떻게 될까요? 우리는 A와 B 사이에 있지만 주어진 지점에서 더 나은 ROC 곡선보다 더 나은 ROC 곡선을 얻을 것이라고 생각합니다.

내가 볼 수있는 한, 나는 슬라이드가 어떻게 올바른지 이해하지 못한다. 왼쪽의 확률 계산은 이해가되지 않습니다.

업데이트 : 볼록 껍질 방법을 발명 한 원저자가 작성한 기사를 찾았습니다. http://www.bmva.org/bmvc/1998/pdf/p082.pdf


내가 게시 한 슬라이드와 책 발췌문을 모두 읽은 결과, 똑같은 내용을 설명하는 것 같고 슬라이드에 오류가 없습니다.
추기경

슬라이드에 언급 된 사실을 확신하기 위해 시뮬레이션을 구성하는 것도 어렵지 않습니다. 당신이 가질 수있는 유일한 어려움은 대략적으로 보이는 두 개의 ROC 곡선을 구성하는 것입니다.하지만 가우시안 혼합 모델을 사용하여 관찰 및 일부 최적이 아닌 결정 규칙을 생성하는 것이 관리 가능합니다.
추기경

답변:


12

(편집)

강의 슬라이드가 옳습니다.

방법 A에는 "최적의 포인트"가 있으며 각각 그래프의 참 및 거짓 양성 비율 (TPA, FPA)을 나타냅니다. 이 점은 문턱 값 또는 일반적으로 A에 대한 최적의 결정 경계에 해당한다 [B]도 마찬가지이다 (그러나 문턱 값과 경계는 관련이 없다).

분류 자 A는 "참 긍정적 인 최대화"(열악한 전략)를 원할 때 "가양 성 최소화"(보존 적 전략) 및 분류 자 ​​B의 선호도에서 훌륭하게 수행되는 것으로 나타났습니다.

첫 번째 질문에 대한 답은 동전의 확률이 (어떤 의미에서) 임의적이라는 것을 제외하고는 기본적으로 그렇습니다. 최종 clasiffier는 다음과 같습니다.

경우 은 "A에 대한 최적의 수용 지역"에 속하는, 사용 분류 A는 것을 (보수적 인) : 경우 (즉, 이용 약관을 읽고 동의) 분류 B 즉, 거부 (즉, 사용 "B 최적 거부 지역의"에 속하는 (열망) it) 다른 곳에서는 확률 로 동전을 뒤집고 분류 자 A 또는 B를 사용하십시오. 엑스엑스

(수정 : 실제로, 강의는 완전히 옳습니다. 우리는 어떤 경우에도 동전을 뒤집을 수 있습니다. 다이어그램 참조)

(0,1) 범위에서 고정 된 를 사용할 수 있습니다 . 이는 다소 보수적이기를 원하는지 여부, 즉 포인트 중 하나에 가까워 지거나 중간에 있는지 여부에 따라 다릅니다.

[*] 여기서는 일반적이어야합니다. 단일 스칼라 임계 값으로 생각하면이 모든 것이 의미가 없습니다. 임계 값 기반 분류 기가있는 1 차원 피처는 A 및 B와 같이 다른 분류기를 가질 수있는 충분한 자유도를 제공하지 않으며, 자유 매개 변수 (결정 경계 = 임계 값)가 다를 때 다른 곡선을 따라 수행합니다. 다시 말해, A와 B는 "분류기"가 아니라 "방법"또는 "시스템"이라고합니다. A는 스칼라뿐만 아니라 결정 경계를 결정하는 일부 매개 변수 (스칼라)로 매개 변수화 된 전체 분류기 제품군이므로]

좀 더 명확하게하기 위해 몇 가지 다이어그램을 추가했습니다.

여기에 이미지 설명을 입력하십시오

2 차원 기능을 가정하면 다이어그램에 일부 샘플이 표시되고 녹색 점은 "양호한"점이고 빨간색은 "나쁜"점입니다. 방법 A는 가변 파라미터 가지고 있다고 가정 (임계치 오프셋 바이어스)의 높은 값 ( '예') 받아 열망 분류기 변. 주황색 선은 다른 방법으로 값에 대해이 방법의 경계 결정에 해당합니다 . 이 방법 (실제로 분류 자 ​​계열)은 대해 특히 잘 수행 됩니다. 이는 적당한 양의 대해 오 탐지거의 없다는 의미입니다 . 반대로, 자체 조정 가능한 매개 변수 를 갖는 방법 B (파란색)=2(A의 그것과 관련이 없음) 높은 수용 영역에서 특히 잘 수행합니다 ( ) : 채워진 파란색 선은 높은 양의 비율을 얻습니다 .=4

이 시나리오에서는 채워진 주황색 선이 "가족 내부의"최적의 A 분류 자 ​​"이고 B에 대해서도 동일하다고 말할 수 있습니다. 그러나 주황색 선이 파란색 선보다 낫다는 것을 알 수는 없습니다. 우리는 높은 비용을 오 탐지에 할당 할 때 더 좋으며 다른 하나는 오 탐지가 훨씬 더 비쌀 때 더 좋습니다.

여기에 이미지 설명을 입력하십시오

이제이 두 분류 기가 우리의 요구에 너무 극단적 일 수 있습니다. 우리는 두 가지 유형의 오류가 비슷한 가중치를 갖기를 원합니다. 분류기 A (주황색 점) 또는 B (파란색 점)를 사용하는 대신 그 사이의 성능을 달성하는 것이 좋습니다. 물론 동전을 뒤집어 무작위로 분류 자 ​​중 하나를 선택하여 결과를 얻을 수 있습니다.

단순히 동전을 뒤집기 만하면 어떻게 정보를 얻을 수 있습니까?

우리는 정보를 얻지 못합니다. 우리의 새로운 무작위 분류기는 단순히 A 또는 B보다 "더 나은"것이 아니라, 성능은 각 유형의 오류에 할당 된 비용과 관련하여 A와 B의 평균입니다. 그것은 우리의 비용이 무엇인지에 따라 우리에게 유익하거나 유익하지 않을 수 있습니다.

AFAIK, (책에서 제안한) 올바른 방법은 다음과 같습니다 ... 이것이 맞습니까?

실제로는 아닙니다. 올바른 방법은 간단합니다. 확률 로 동전을 뒤집고 분류 자 (최적 A 또는 최적 B)를 선택하고 해당 분류자를 사용하여 분류하십시오.


@ leonboy 나는 x가 임계 값이며 x 분류 자 ​​A의 낮은 값에 가장 적합하다고 생각합니다. 높은 값의 x 분류 자 ​​B가 가장 효과적입니다. 기껏해야 주어진 거짓 양성 비율에 대해 진정한 양성 비율이 가장 높습니다. 우리가 아는 모든 것이 A가 교차하는 단일 지점까지 가장 잘 작동하고, 그보다 높은 모든 임계 값에 대해 B가 작동한다는 것입니다. 따라서 이러한 알고리즘 C는 해당 영역에서 A 아래로 내려 와야합니다.
마이클 R. 체 르닉

마찬가지로 TP가 B에 대해 더 높은 FPa와 FPb 사이의 영역에서 p가 0보다 큰 알고리즘은 B보다 더 잘 수행되지 않습니다. TPc에 대한 공식은 정확하지만 TPb와 TPa 사이의 고정 가중 평균은 TPa보다 클 수 없습니다 및 TPb. 그들 사이에 있어야합니다. 그러나 다이어그램은 항상 FPa 및 FPb에서 해당 지역의 TPa 및 TPb보다 높은 TPc를 보여줍니다. 여기에 우리가 빠진 것이 있습니까? 나는 당신의 대답에서 그것을 찾지 못했습니다.
마이클 R. 체 르닉

1
좋아, 전구가 꺼 졌어! X는 스칼라 임계 값이 아니라 마음 속의 벡터입니다. 정말 아무것도 바뀌나요? FP aix는 스칼라 확률입니다. 내 교차점은 A와 B의 FP 평등 점입니다. 이로 이어지는 많은 벡터 X가있을 수 있습니다. FPa와 FPb 사이의 FP 축을 따라 어느 시점에서나 말하고 있습니다. TPc = p TPa + (1-p) TPb. 플롯의 선은 TP 대 FP 평면에 있습니다. OP가 질문에 따라 어떻게 그 선이 A와 B의 곡선 위의 점을 통과 할 수 있습니까?
Michael R. Chernick

1
@Michael : A와 B는 서로 다른 경계 결정을 내리는 고유 한 방법이라고 생각합니다. 각각은 조정 가능한 매개 변수 (1D의 임계 값)를 가지며 매개 변수는 독립적이며 분류기 제품군을 제공합니다. 명확히하기 위해 다이어그램을 그려 보도록하겠습니다.
leonbloy

1
나는 그 예쁜 설명에 대해 leonbloy에게 공감대를 주었다. 그러나 나는 그 주장이 나에게 명백하고 나의 최근 생각에 동의하기 때문에 추기경의 최종 논평을 좋아한다. @leobloy 다이어그램에서 누락 된 것은 무작위 규칙에 대한 점수를 두 개씩이기는 것입니다. 새로운 규칙을 두 가지 오류에 다르게 가중치를 부여하는 규칙으로 설명 할 수는 있지만 필요하지는 않으며 그 인수를 제외하면 혼란스럽지 않습니다.
Michael R. Chernick

2

나는 당신의 추론에 동의합니다. 포인트 A와 B 사이에있을 때 동전을 뒤집어 분류기를 사용하여 하나를 선택하면 곡선의 포인트는 항상 더 나은 분류기 아래에 있고 더 가난한 분류기 위에 있으며 둘 다 위에는 없습니다! 다이어그램에 문제가 있어야합니다. 2 개의 ROC 곡선이 랜덤 선택 알고리즘을 교차하는 지점에서 2 개의 알고리즘과 동일한 성능을 갖습니다. 다이어그램이 묘사하는 방식 위에 있지 않습니다.


1
슬라이드가 맞다고 생각합니다. 두 개의 다른 임계 값으로 두 개의 다른 의사 결정 절차를 사용하고 무작위로 결정을 내리면 볼록한 조합이 생겨 두 개 사이에 놓이게됩니다. 이 점 동일한 오 탐률에서 곡선의 양쪽 ( ! ) 위에 있을 수 있습니다 . 각 절차에 사용 된 임계 값이 그 시점에서 다르기 때문입니다.
추기경

1
볼록한 조합의 A와 B는 그 오 탐율로 개별적으로 선택된 A와 B와 다릅니다. A와 B가 분류 자 ​​패밀리에서 선택되었음을 알지 못했기 때문에 다이어그램이 혼란 스러웠습니다.
Michael R. Chernick

1

나는이 대답이 정확하고 추기경의 의견과 함께 믿습니다! 교차로에서 벗어날 수는 있지만 방법이 아닙니다. 이 방법을 발명 한 사람에게서 원본 논문을 찾았습니다. bmva.org/bmvc/1998/pdf/p082.pdf
hyperknot

@ zsero : Michael 조차도이 답변은 답변이 게시 될 당시 다이어그램의 이해에 기초하고 있으며 의견과 다른 답변이 나타난 후 다이어그램에 대한 해석이 변경되었음을 인정할 것이라고 생각합니다. 그림에서 알 수 있듯이 , 결과의 양의 양의 비율이 주어진 위양의 비율에 대해 다른 두 개의 곡선을 지배 하더라도 첫 번째 곡선의 점과 두 번째 점의 점 사이의 임의의 선상의 임의의 점을 무작위 화를 통해 달성 할 수 있습니다 .
추기경
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.