분류와 회귀를 동시에 수행 할 수있는 알고리즘이 있는지 궁금합니다. 예를 들어 알고리즘이 분류자를 배우게하고 각 레이블 내 에서 동시에 연속적인 목표를 배우도록하겠습니다. 따라서 각 학습 예에 대해 범주 레이블 과 연속 값이 있습니다.
먼저 분류자를 훈련시킨 다음 각 레이블 내에서 회귀자를 훈련시킬 수 있지만 두 가지를 모두 수행 할 수있는 알고리즘이 있으면 훌륭 할 것이라고 생각합니다.
분류와 회귀를 동시에 수행 할 수있는 알고리즘이 있는지 궁금합니다. 예를 들어 알고리즘이 분류자를 배우게하고 각 레이블 내 에서 동시에 연속적인 목표를 배우도록하겠습니다. 따라서 각 학습 예에 대해 범주 레이블 과 연속 값이 있습니다.
먼저 분류자를 훈련시킨 다음 각 레이블 내에서 회귀자를 훈련시킬 수 있지만 두 가지를 모두 수행 할 수있는 알고리즘이 있으면 훌륭 할 것이라고 생각합니다.
답변:
설명하는 문제는 잠재 클래스 회귀 또는 클러스터 방식 회귀에 의해 해결 되거나 더 넓은 유한 혼합 모델 제품군 또는 잠재 클래스 모델 의 일반화 된 선형 모델 의 확장 혼합입니다 .
분류 (감독 학습)와 회귀 자체 의 조합이 아니라 클러스터링 (비 감독 학습)과 회귀가 아닙니다. 기본 접근 방식을 확장하여 수반되는 변수를 사용하여 클래스 멤버십을 예측할 수 있으므로 원하는 내용에 더 가깝게 만들 수 있습니다. 실제로 분류를 위해 잠재 클래스 모델을 사용하는 것은 Verpourt and Magidson (2003)에 의해 설명되었는데, 그런 목적에 권장합니다.
이 접근법은 기본적으로 유한 혼합 모델 (또는 잠재 클래스 분석 )입니다.
여기서 는 모든 매개 변수의 벡터이며 f k 는 ϑ k로 매개 변수화 된 혼합 성분 이며 각 성분은 잠재 비율 π k로 나타납니다 . 따라서 데이터 분포는 K 성분 의 혼합이며 각 성분 은 확률 π k로 나타나는 회귀 모델 f k 로 설명 할 수 있습니다 . 유한 혼합물 모델은 f k 선택에 매우 유연합니다 다른 형태 및 다른 종류의 모델의 혼합물 (예를 들어, 요인 분석기의 혼합물)로 확장 될 수있다.
간단한 잠재 클래스 회귀 모델은 클래스 멤버쉽을 예측하는 수반되는 변수를 포함하도록 확장 될 수 있습니다 (Dayton and Macready, 1998; 또한 참조 : Linzer and Lewis, 2011; Grun and Leisch, 2008; McCutcheon, 1987; Hagenaars and McCutcheon, 2009) 이 경우 모델은
여기서 다시 모든 파라미터의 벡터이지만, 또한 병용 포함 변수 w를
좋은 점은 모델 기반 클러스터링 기술이며 모델에 데이터를 적합시키는 것을 의미하며 모델 비교를 위해 다른 방법을 사용하여 이러한 모델을 비교할 수 있다는 것입니다 (우도 비 테스트, BIC, AIC 등). 따라서 최종 모델의 선택은 일반적으로 군집 분석 에서처럼 주관적이지 않습니다. 문제를 클러스터링의 두 가지 독립적 인 문제로 제동 한 다음 회귀를 적용하면 편향된 결과로 이어질 수 있으며 단일 모델 내에서 모든 것을 추정하면 데이터를보다 효율적으로 사용할 수 있습니다.
단점은 모델에 대해 많은 가정을하고 그것에 대해 약간의 생각을해야한다는 것입니다. 따라서 데이터를 가져 와서 귀찮게하지 않고 결과를 반환하는 블랙 박스 방법은 아닙니다. 시끄러운 데이터와 복잡한 모델을 사용하면 모델 식별 문제도 발생할 수 있습니다. 이러한 모델은 그 인기가 있습니다 또한 있기 때문에, 널리 (당신이 큰 R 패키지를 확인할 수 있습니다이 구현되지 않습니다 flexmix
와 poLCA
나는 그것은 또한 어느 정도 SAS와 Mplus에서 구현 알고까지), 당신이 소프트웨어에 의존한다.
아래에서는 flexmix
라이브러리 (Leisch, 2004; Grun and Leisch, 2008) 비네팅 피팅에서 두 개의 회귀 모델을 조합하여 데이터를 구성한 모델의 예를 볼 수 있습니다.
library("flexmix")
data("NPreg")
m1 <- flexmix(yn ~ x + I(x^2), data = NPreg, k = 2)
summary(m1)
##
## Call:
## flexmix(formula = yn ~ x + I(x^2), data = NPreg, k = 2)
##
## prior size post>0 ratio
## Comp.1 0.506 100 141 0.709
## Comp.2 0.494 100 145 0.690
##
## 'log Lik.' -642.5452 (df=9)
## AIC: 1303.09 BIC: 1332.775
parameters(m1, component = 1)
## Comp.1
## coef.(Intercept) 14.7171662
## coef.x 9.8458171
## coef.I(x^2) -0.9682602
## sigma 3.4808332
parameters(m1, component = 2)
## Comp.2
## coef.(Intercept) -0.20910955
## coef.x 4.81646040
## coef.I(x^2) 0.03629501
## sigma 3.47505076
다음 도표에 표시됩니다 (점 모양은 실제 클래스, 색상은 분류).
자세한 내용은 다음 책과 논문을 확인하십시오.
Wedel, M. 및 DeSarbo, WS (1995). 일반화 선형 모형에 대한 혼합 가능성 접근법. 분류 저널, 12 , 21–55.
Wedel, M. 및 WA, Kamakura (2001). 시장 세분화 – 개념 및 방법 론적 기초. Kluwer 학술 출판사.
Leisch, F. (2004). Flexmix : R. Journal of Statistical Software, 11 (8) , 1-18의 유한 혼합물 모델 및 잠재 유리 회귀에 대한 일반적인 프레임 워크 .
Grun, B. 및 Leisch, F. (2008). FlexMix 버전 2 : 수반되는 변수와 다양하고 일정한 매개 변수가있는 유한 혼합물. 통계 소프트웨어 저널, 28 (1) , 1-35.
McLachlan, G. and Peel, D. (2000). 유한 혼합물 모델. 존 와일리 & 아들
GB (데이튼, CM 및 Macready, GB) (1988). 수반되는 가변 잠재 클래스 모델. 미국 통계 협회 저널, 83 (401), 173-178.
Linzer, DA 및 Lewis, JB (2011). poLCA : 다원 변수 잠재 클래스 분석을위한 R 패키지. 통계 소프트웨어 저널, 42 (10), 1-29.
앨러 배마 맥커천 (1987). 잠재 클래스 분석. 세이지.
Hagenaars JA 및 McCutcheon, AL (2009). 적용 잠재 클래스 분석. 케임브리지 대학 출판부.
Vermunt, JK 및 Magidson, J. (2003). 분류를위한 잠재 클래스 모델. 계산 통계 및 데이터 분석, 41 (3), 531-537.
Grün, B. 및 Leisch, F. (2007). 유한 회귀 모형 혼합 적용 flexmix 패키지 비 네트.
Grün, B., & Leisch, F. (2007). R. 전산 통계 및 데이터 분석, 51 (11), 5247-5252 에서 일반 선형 회귀의 유한 혼합물 피팅 .