수업 확률을 예측하기위한 머신 러닝


20

예제가 두 클래스 중 하나에 속하는 확률을 출력하는 분류자를 찾고 있습니다.

나는 로지스틱 회귀와 순진한 베이 즈에 대해 알고 있지만 비슷한 방식으로 작동하는 다른 사람들에 대해 말해 줄 수 있습니까? 즉, 예제가 속한 클래스가 아니라 예제가 특정 클래스에 적합 할 확률을 예측하는 분류 자입니까?

로지스틱 회귀 및 순진한 베이를 포함하여 이러한 여러 분류기의 장단점에 대해 공유 할 수있는 생각에 대한 보너스 포인트. 예를 들어, 멀티 클래스 분류에 더 적합한가?

답변:


5

SVM은 로지스틱 회귀와 밀접한 관련이 있으며 하이퍼 플레인까지의 거리 (각 점의 점수)를 기반으로 확률을 예측하는 데 사용할 수 있습니다. 점수-> 확률 매핑을 어떤 방식으로 만들어서 문제가 일차원 적이므로 상대적으로 쉽습니다. 한 가지 방법은 S- 곡선 (예 : 물류 곡선 또는 기울기)을 데이터에 맞추는 것입니다. 또 다른 방법은 등장 성 회귀를 사용하여보다 일반적인 누적 분포 함수를 데이터에 맞추는 것입니다.

SVM 이외에도 딥 네트워크와 같은 그래디언트 기반 방법을 사용하여 적합한 방법에 적합한 손실 함수를 사용할 수 있습니다.

요즘 분류기를 설계 할 때 확률을 예측하는 것은 고려되지 않습니다. 분류 성능을 방해하는 추가 요소이므로 폐기됩니다. 그러나 모든 이진 분류기를 사용하여 "" 랭 포드와 자 드로즈 니의 조사 "감소.


4
"분류기를 설계 할 때 확률 예측은 고려되지 않습니다". 2013 년에 이것이 사실인지 확실하지 않지만, 2018 년에는 거의 확실합니다.
Matthew Drury

9

교차 엔트로피를 S 자형 출력 장치와 함께 비용 기능으로 사용하는 경우 신경망이 또 다른 가능성이 있습니다. 그것은 당신이 찾고있는 견적을 제공 할 것입니다.

로지스틱 회귀뿐만 아니라 신경망은 차별적 인 분류기이므로 훈련 데이터에 대한 조건부 분포를 최대화하려고 시도합니다. 무한 샘플의 한계에서 무조건적으로 두 추정치 모두 동일한 한계에 접근합니다.

이 문서에서이 질문에 대한 자세한 분석을 찾을 수 있습니다. 테이크 아웃 아이디어는 생성 모델이 점근 오류가 더 높더라도 차별적 모델보다 훨씬 빠르게이 점근 오류에 접근 할 수 있다는 것입니다. 따라서 어떤 것을 취해야하는지는 문제, 사용중인 데이터 및 특정 요구 사항에 따라 다릅니다.

마지막으로, 조건부 확률의 추정값을 결정의 근거가되는 절대 점수로 간주하는 것은 (그것이 당신의 뒤에 오는 경우라면) 일반적으로 의미가 없습니다. 중요한 것은 구체적인 샘플이 주어지면 분류기에서 출력 한 최상의 후보 클래스를 고려하고 관련 확률을 비교하는 것입니다. 최고 두 점수의 차이가 높으면 분류자가 자신의 답변에 대해 매우 확신하고 있음을 의미합니다 (반드시 옳은 것은 아님).


2

많은 것이 있으며 가장 잘 작동하는 것은 데이터에 달려 있습니다. 속임수에는 여러 가지 방법도 있습니다. 예를 들어 점수와 유사한 모양을 제공하는 분류기의 출력에 대해 확률 보정을 수행 할 수 있습니다 (예 : 가중치 벡터와 입력 사이의 내적). 가장 일반적인 예는 Platt 's scaling입니다.

기본 모델의 모양에 관한 문제도 있습니다. 데이터와 다항식 상호 작용이있는 경우 바닐라 로지스틱 회귀 분석에서는 데이터를 제대로 모델링 할 수 없습니다. 그러나 커널 회귀 로지스틱 회귀 분석을 사용하면 모형이 데이터에 더 잘 맞을 수 있습니다. 이는 분류기의 정확도를 향상시키기 때문에 일반적으로 확률 출력의 "양호"를 증가시킵니다.

일반적으로 확률을 제공하는 대부분의 모델은 일반적으로 로지스틱 함수를 사용하므로 비교하기가 어려울 수 있습니다. 실제로는 잘 작동하는 경향이 있으며 베이지안 네트워크는 대안입니다. Naive Bayes는 확률이 아무리 우수하다는 가정을 너무 단순하게 가정합니다. 이는 합리적인 규모의 데이터 세트에서 쉽게 관찰 할 수 있습니다.

결국 데이터를 더 잘 나타낼 수있는 모형을 선택하여 확률 추정치의 질을 높이는 것이 일반적으로 더 쉽습니다. 이런 의미에서 확률을 얻는 방법은 그다지 중요하지 않습니다. 로지스틱 회귀 분석에서 70 %의 정확도를 얻을 수 있고 SVM에서 98 %의 정확도를 얻을 수 있다면 "확실한"확률 만 제공하면 실제로 확률이 높지 않더라도 대부분의 채점 방법으로 결과를 "더 좋게"만들 수 있습니다. 이전에 언급 한 보정을 수행하여 실제로 향상시킬 수 있습니다).

정확한 분류자를 얻을 수 없다는 맥락에서 같은 질문이 더 흥미롭지 만, 아무도 그러한 시나리오에서 공부 / 비교하지는 못합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.