(해머의 답변은 훌륭하므로 MetaOptimize에서 내 답변을 교차 게시하여 완벽하게 작성하십시오.)
생성 알고리즘 은 데이터가 실제로 생성되는 방식의 모델을 제공 하는 것으로 생각합니다 대신 및 모두의 모델을 제공한다고 생각합니다 . 비록 그것이 동등하다고 생각하지만, 단순히 분류 분할을 제공하는 (그리고 반드시 확률적인 방식은 아님) 차별적 알고리즘 .피( X| 와이)피( Y)P(X,Y)
예를 들어 가우스 혼합 모델과 k- 평균 군집을 비교하십시오. 전자에서는 점이 어떻게 생성되는지 (확률이 높은 성분을 선택한 다음 성분의 가우시안 분포에서 샘플링하여 점을 방출하는 방법)에 대한 훌륭한 확률 모델을 가지고 있지만 실제로 후자에 대해 말할 수있는 것은 없습니다.
당신이 얻을 수 있기 때문에, 생식 알고리즘은 차별적 특성을 가지고 있습니다 는 일단 와 (베이 즈 정리에 의해)을 차별적 알고리즘은 정말하지 않는 생식 특성을 가지고 있지만.P(Y|X)P(X|Y)P(Y)
1 : 판별 알고리즘을 사용하면 실제로 포인트 생성 방법에 대한 모델을 제공하지 않고도 포인트를 분류 할 수 있습니다. 따라서 다음 중 하나 일 수 있습니다.
- 확률 알고리즘은 (예를 들어, 로지스틱 회귀) 를 배우려고 시도하고 ;P(Y|X)
- 또는 포인트에서 클래스로의 매핑을 직접 학습하려는 비 확률 알고리즘 (예 : 퍼셉트론 및 SVM은 단순히 분리 초평면을 제공하지만 새 포인트를 생성하는 모델은 없음)
예, 차별적 분류기는 생성되지 않은 분류 자입니다.
이것에 대해 생각하는 또 다른 방법은 생성 알고리즘 이 모델에 대해 일종의 구조 가정을 가정 하지만 차별적 알고리즘은 가정을 적게한다는 것입니다. 예를 들어 Naive Bayes는 기능의 조건부 독립성을 가정하지만 로지스틱 회귀 (Naive Bayes의 차별적 인 "상대 부분")는 그렇지 않습니다.
2 : 예, Naive Bayes는 및 캡처하기 때문에 생성 됩니다. 예를 들어, 영어 및 프랑스어 단어 확률과 함께 및 이라는 것을 알고 있다면 먼저 문서의 언어를 선택하여 새 문서를 생성 할 수 있습니다 ( 확률이 0.7 인 영어, 확률이 0.3 인 프랑스어)를 선택한 다음 선택한 언어의 단어 확률에 따라 단어를 생성합니다.P(X|Y)P(Y)P(Y=English)=0.7P(Y=French)=0.3
네, 그런 식으로 로지스틱 회귀를 생성 할 수있을 것 같지만 아직 존재하지 않는 로지스틱 회귀에 무언가를 추가했기 때문입니다. 즉, Naive Bayes 분류를 수행하는 경우 (오른쪽의 용어 및 , 새 문서를 생성 할 수 있습니다). 그러나 로지스틱 회귀 분석에서 를 계산할 때는이 두 가지를 계산하지 않고 단지 로트 함수를 내적에 적용하는 것입니다.P ( X | Y ) P ( Y ) P ( Y | X )P(Y|X)∝P(X|Y)P(Y)P(X|Y)P(Y)P(Y|X)
3 : 생성 모델은 생성 된 가정이 모델에 과적 합을 방지하는 구조를 배치 하기 때문에 소규모 데이터 세트에서 차별적 모델보다 성능이 우수 합니다 . 예를 들어 Naive Bayes와 Logistic Regression을 생각해 봅시다. Naive Bayes 가정은 물론 거의 만족스럽지 않으므로 데이터 집합이 증가함에 따라 로지스틱 회귀 분석이 Naive Bayes보다 성능이 우수한 경향이 있습니다 (Naive Bayes가 할 수없는 종속성을 캡처 할 수 있기 때문에). 그러나 작은 데이터 세트 만있는 경우 로지스틱 회귀 분석은 실제로 존재하지 않는 스퓨리어스 패턴을 포착 할 수 있으므로 Naive Bayes는 모델에서 과적 합을 방지하는 일종의 정규화 기 역할을합니다. Andrew Ng와 Michael Jordan이 이에 대해 더 많이 이야기하는 차별적 대 생성 적 분류기에 관한 논문 이 있습니다.
4 : 그것이 의미하는 바는 모델을 올바르게 지정하고 모델이 실제로 보유하는 경우 생성 모델이 실제로 데이터의 기본 구조를 학습 할 수 있지만 생성 알고리즘 가정이 충족되지 않으면 차별 모델이 성능을 능가 할 수 있다는 것입니다. 특정 구조에 덜 묶여 있고 실제 세계는 지저분하며 가정은 거의 완벽하게 충족되지 않습니다). (이 혼동되는 인용 부호는 무시해도됩니다.)