생식 대 차별


153

생성은 " 기반"을 의미하고 차별적 인 의미는 " 기반"을 의미 하지만 몇 가지 점에서 혼란스러워합니다.P ( y | x )P(x,y)P(y|x)

  • Wikipedia (웹에서 발생하는 다른 많은 히트)는 SVM 및 의사 결정 트리와 같은 항목을 차별적 인 것으로 분류합니다. 그러나 이것들은 확률 론적 해석조차하지 않습니다. 여기서 차별적 인 것은 무엇을 의미합니까? 차별적이지 않은 것은 무엇입니까?

  • Naive Bayes (NB)는 및 캡처하기 때문에 생성됩니다. 따라서 ( )가 있습니다. 를 유사한 방식 (NB와 동일한 독립성 가정으로 계산하여 와 같이 로지스틱 회귀 (차별 모델의 포스터 소년)을 "생성 적으로"만드는 것은 사소한 일이 아닙니까? , 대한 MLE 은 주파수 일 까?P ( y ) P ( x , y ) P ( y | x ) P ( x ) P ( x ) = P ( x 0 ) P ( x 1 ) . . . P ( X의 D ) P ( X I )P(x|y)P(y)P(x,y)P(y|x)P(x)P(x)=P(x0)P(x1)...P(xd)P(xi)

  • 나는 차별적 모델이 생성 적 모델을 능가하는 경향이 있다는 것을 알고 있습니다. 생식 모델 작업의 실제 사용은 무엇입니까? 데이터를 생성 / 시뮬레이트 할 수 있다는 것이 인용되었지만 언제 발생합니까? 나는 개인적으로 회귀, 분류, 콜라 보 경험이 있습니다. 구조화 된 데이터를 필터링하므로 여기와 관련이 없습니까? 은 "누락 된 데이터"인수 ( 누락 된 ) 단지 당신에게 훈련 데이터와 에지 (당신이 실제로 알고 줄 것으로 보인다 이상 소외 필요가 없습니다 상대적으로 바보를 얻을 수를 어쨌든 직접 추정 할 수있는 , 그리고 심지어 대치가 훨씬 더 유연합니다 ( 뿐만 아니라 예측할 수 있음)x i y P ( y ) P ( x i ) yP(xi|y)xiyP(y)P(xi)y그러나 다른 도 마찬가지입니다).xi

  • Wikipedia에서 완전히 모순되는 인용문은 무엇입니까? "생성 모델은 일반적으로 복잡한 학습 과제에서 의존성을 표현하는 데있어 차별적 모델보다 더 유연합니다."vs. "차별적 모델은 일반적으로 관측 변수와 목표 변수 사이의 더 복잡한 관계를 표현할 수 있습니다"

이것에 대해 생각하게 된 관련 질문 .


5
(+1) 용어가 혼동 스럽다고 생각하고 모델이 SVM과 달리 조건부 분포에 대해 생성되는 것으로 생각합니다. 목적. 두 번째 글 머리표에서 알 수 있듯이 의 모형을 확장하여 완전히 생성 된 모형이 될 수 있습니다. 우리는 할 수 있습니다 모델 때문에 구분이보기의 학습 관점에서 관련 및 계산 또는 우리가 모델링 할 수 . P ( y | x ) P ( x , y ) P ( y | x ) P ( y | x )P(y|x)P(y|x)P(x,y)P(y|x)P(y|x)
NRH

2
SVM에 대한 귀하의 진술이 사실이라고 생각하지 않습니다. "그러나 이것들은 확률 론적 해석조차하지 않습니다." 손실 기능이있는 모든 것은 적절한 PDF의 MAP 구성을 찾아 확률 론적으로 명확하게 해석 할 수 있습니다.
gmatt

답변:


135

차별적 모델과 생성 적 모델 의 근본적인 차이점 은 다음과 같습니다.

  • 판별 모델 은 클래스 간의 (경질 또는 연질) 경계 를 학습합니다
  • 생성 모델 은 개별 클래스 의 분포 를 모델링합니다.

직접 질문에 대답하려면 :

  • SVM과 의사 결정 트리는 클래스 간의 명확한 경계를 배우기 때문에 차별적입니다. SVM은 최대 마진 분류기이므로 커널이 주어지면 두 클래스의 샘플 간 거리를 최대화하는 결정 경계를 학습합니다. 샘플과 학습 된 결정 경계 사이의 거리를 사용하여 SVM을 "소프트"분류기로 만들 수 있습니다. DT는 정보 획득 (또는 다른 기준)을 최대화하는 방식으로 공간을 재귀 적으로 분할하여 결정 경계를 학습합니다.

  • 이러한 방식으로 로지스틱 회귀의 생성 형태를 만드는 것이 가능합니다. 그러나 전체 결정 모델을 사용하여 분류 결정을 내리지는 않습니다.

  • 적용에 따라 생성 모델이 제공 할 수있는 여러 가지 장점이 있습니다. 온라인 테스트 데이터가 교육 데이터와 다른 기본 배포에 의해 생성 될 수있는 비정규 배포를 처리한다고 가정 해 보겠습니다. 특히 온라인 업데이트를 감독 할 필요가없는 경우 SVM의 결정 경계에 대해 배포 변경을 감지하고 이에 따라 생성 모델을 업데이트하는 것이 일반적으로 더 간단합니다. 판별 모델은 일반적으로 이상치 탐지 기능을 수행하지 않지만 생성 모델은 일반적으로 작동합니다. 물론 특정 응용 프로그램에 가장 적합한 것은 응용 프로그램을 기준으로 평가해야합니다.

  • (이 인용문은 복잡하지만, 이것이 내가 생각하는 것입니다.) 생성 모델은 일반적으로 확률 적 그래픽 모델로 지정되며, 데이터 세트에서 독립 관계를 풍부하게 표현합니다. 판별 모델은 데이터 세트의 기능과 클래스 간 관계를 명확하게 표현하지 않습니다. 리소스를 사용하여 각 클래스를 완전히 모델링하는 대신 클래스 간의 경계를 풍부하게 모델링하는 데 중점을 둡니다. 동일한 양의 용량 (예를 들어, 모델을 실행하는 컴퓨터 프로그램의 비트)이 주어지면, 차별적 모델은 생성 모델보다이 경계의 더 복잡한 표현을 산출 할 수 있습니다.


일반의 코멘트 : 사이의 경계 클러스터 / 플롯으로 / 측정을 이해하기 힘들어 얻을 증가합니다. 예를 들어, 차별적 모델로 간주되는 k- 클러스터링은 시끄럽고 특별합니다. (예 : 독일의 2 당 시스템과 5 당의 정치 비교) kk(k2)kk
데니스

63

(해머의 답변은 훌륭하므로 MetaOptimize에서 내 답변을 교차 게시하여 완벽하게 작성하십시오.)

생성 알고리즘 은 데이터가 실제로 생성되는 방식의 모델을 제공 하는 것으로 생각합니다 대신 및 모두의 모델을 제공한다고 생각합니다 . 비록 그것이 동등하다고 생각하지만, 단순히 분류 분할을 제공하는 (그리고 반드시 확률적인 방식은 아님) 차별적 알고리즘 .P(X|Y)P(Y)P(X,Y)

예를 들어 가우스 혼합 모델과 k- 평균 군집을 비교하십시오. 전자에서는 점이 어떻게 생성되는지 (확률이 높은 성분을 선택한 다음 성분의 가우시안 분포에서 샘플링하여 점을 방출하는 방법)에 대한 훌륭한 확률 모델을 가지고 있지만 실제로 후자에 대해 말할 수있는 것은 없습니다.

당신이 얻을 수 있기 때문에, 생식 알고리즘은 차별적 특성을 가지고 있습니다 는 일단 와 (베이 즈 정리에 의해)을 차별적 알고리즘은 정말하지 않는 생식 특성을 가지고 있지만.P(Y|X)P(X|Y)P(Y)

1 : 판별 알고리즘을 사용하면 실제로 포인트 생성 방법에 대한 모델을 제공하지 않고도 포인트를 분류 할 수 있습니다. 따라서 다음 중 하나 일 수 있습니다.

  • 확률 알고리즘은 (예를 들어, 로지스틱 회귀) 를 배우려고 시도하고 ;P(Y|X)
  • 또는 포인트에서 클래스로의 매핑을 직접 학습하려는 비 확률 알고리즘 (예 : 퍼셉트론 및 SVM은 단순히 분리 초평면을 제공하지만 새 포인트를 생성하는 모델은 없음)

예, 차별적 분류기는 생성되지 않은 분류 자입니다.

이것에 대해 생각하는 또 다른 방법은 생성 알고리즘모델에 대해 일종의 구조 가정을 가정 하지만 차별적 알고리즘은 가정을 적게한다는 것입니다. 예를 들어 Naive Bayes는 기능의 조건부 독립성을 가정하지만 로지스틱 회귀 (Naive Bayes의 차별적 인 "상대 부분")는 그렇지 않습니다.

2 : 예, Naive Bayes는 및 캡처하기 때문에 생성 됩니다. 예를 들어, 영어 및 프랑스어 단어 확률과 함께 및 이라는 것을 알고 있다면 먼저 문서의 언어를 선택하여 새 문서를 생성 할 수 있습니다 ( 확률이 0.7 인 영어, 확률이 0.3 인 프랑스어)를 선택한 다음 선택한 언어의 단어 확률에 따라 단어를 생성합니다.P(X|Y)P(Y)P(Y=English)=0.7P(Y=French)=0.3

네, 그런 식으로 로지스틱 회귀를 생성 할 수있을 것 같지만 아직 존재하지 않는 로지스틱 회귀에 무언가를 추가했기 때문입니다. 즉, Naive Bayes 분류를 수행하는 경우 (오른쪽의 용어 및 , 새 문서를 생성 할 수 있습니다). 그러나 로지스틱 회귀 분석에서 를 계산할 때는이 두 가지를 계산하지 않고 단지 로트 함수를 내적에 적용하는 것입니다.P ( X | Y ) P ( Y ) P ( Y | X )P(Y|X)P(X|Y)P(Y)P(X|Y)P(Y)P(Y|X)

3 : 생성 모델은 생성 된 가정이 모델에 과적 합을 방지하는 구조를 배치 하기 때문에 소규모 데이터 세트에서 차별적 모델보다 성능이 우수 합니다 . 예를 들어 Naive Bayes와 Logistic Regression을 생각해 봅시다. Naive Bayes 가정은 물론 거의 만족스럽지 않으므로 데이터 집합이 증가함에 따라 로지스틱 회귀 분석이 Naive Bayes보다 성능이 우수한 경향이 있습니다 (Naive Bayes가 할 수없는 종속성을 캡처 할 수 있기 때문에). 그러나 작은 데이터 세트 만있는 경우 로지스틱 회귀 분석은 실제로 존재하지 않는 스퓨리어스 패턴을 포착 할 수 있으므로 Naive Bayes는 모델에서 과적 합을 방지하는 일종의 정규화 기 역할을합니다. Andrew Ng와 Michael Jordan이 이에 대해 더 많이 이야기하는 차별적 대 생성 적 분류기에 관한 논문 이 있습니다.

4 : 그것이 의미하는 바는 모델을 올바르게 지정하고 모델이 실제로 보유하는 경우 생성 모델이 실제로 데이터의 기본 구조를 학습 할 수 있지만 생성 알고리즘 가정이 충족되지 않으면 차별 모델이 성능을 능가 할 수 있다는 것입니다. 특정 구조에 덜 묶여 있고 실제 세계는 지저분하며 가정은 거의 완벽하게 충족되지 않습니다). (이 혼동되는 인용 부호는 무시해도됩니다.)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.