잠재 클래스 분석 대 군집 분석-추론의 차이?


30

잠재 분류 분석 (LCA)과 군집 분석에서 도출 할 수있는 추론의 차이점은 무엇입니까? LCA가 클래스를 생성하는 기본 잠재 변수를 가정하는 반면, 클러스터 분석은 클러스터링 알고리즘의 상관 속성에 대한 경험적 설명입니다. 사회 과학에서 LCA는 인기를 얻었으며 클러스터 분석이 수행하지 않는 공식적인 카이-제곱 유의성 검정이 있기 때문에 방법 론적으로 우수하다고 간주됩니다.

"LCA는 이것에 적합하지만 (클러스터 분석은 아니지만) 클러스터 분석은 이것에 적합하지만 (잠재적 인 클래스 분석은 아님) 형태로 예제를 제공 할 수 있다면 좋을 것입니다.

감사! 브라이언


1
inferences이 맥락에서 무엇을 부르고 왜 추론의 차이점 만 관심이 있습니까?
ttnphns 2009 년

1
@ttnphns 추론에 의해, 결과의 실질적인 해석을 의미합니다. "추론의 차이점 만"에 대한 나의 관심에 대한 귀하의 질문의 후반부에 대해서는 잘 모르겠습니다. 각 알고리즘 또는 기본 수학의 실행에 관심이 없습니다. 결과를 해석하는 방법에 관심이 있습니다.
Brian P

답변:


27

잠재 클래스 분석은 사실상 유한 혼합물 모델입니다 ( 여기 참조 ). FMM과 다른 클러스터링 알고리즘의 주요 차이점은 FMM이 데이터 분포를 설명하는 확률 모델을 사용하여 클러스터를 파생시키는 "모델 기반 클러스터링"방식을 제공한다는 것입니다. 따라서 임의의 선택된 거리 측정 값이있는 군집을 찾는 대신 데이터 분포를 설명하는 모델을 사용하고이 모델을 기반으로 특정 사례가 특정 잠재 클래스의 확률을 평가합니다. 따라서 데이터 분산을 설명하는 것으로 시작하는 하향식 접근 방법 이라고 말할 수 있지만 다른 클러스터링 알고리즘은 상향식 접근 방법입니다 (사건간에 유사성을 발견).

데이터 모델 선택에 통계 모델을 사용하고 군집과 달리 적합도를 평가하는 것이 가능합니다. 또한 데이터 구조의 기초가되는 일부 프로세스 또는 "잠재적 구조"가 있다고 가정하면 FMM은 데이터 뒤의 잠재적 구조를 모델링 할 수 있기 때문에 (유사성을 찾는 것보다) 적절한 선택으로 보입니다.

다른 차이점은 FMM이 클러스터링보다 유연하다는 것입니다. 클러스터링 알고리즘은 클러스터링 만 수행하는 반면 FMM 및 LCA 기반 모델은

  • 확인, 그룹 간 분석,
  • 품목 반응 이론 (및 기타) 모델을 LCA와 결합
  • 개인의 잠재 클래스 멤버십을 예측하기위한 공변량 포함
  • 과에서 / 또는 내 클러스터 회귀 모델 잠재 수준의 회귀 ,
  • 데이터 구조 등에서 시간에 따른 변화를 모델링 할 수 있습니다.

더 많은 예는 다음을 참조하십시오.

Hagenaars JA & McCutcheon, AL (2009). 적용 잠재 클래스 분석. 케임브리지 대학 출판부.

다음 논문을 포함한 R 의 flexmixpoLCA 패키지 문서 :

Linzer, DA, & Lewis, JB (2011). poLCA : 다원 변수 잠재 클래스 분석을위한 R 패키지. 통계 소프트웨어 저널, 42 (10), 1-29.

Leisch, F. (2004). Flexmix : R. Journal of Statistical Software, 11 (8), 1-18의 유한 혼합 모델 및 잠재 유리 회귀에 대한 일반적인 프레임 워크 .

Grün, B., & Leisch, F. (2008). FlexMix 버전 2 : 수반되는 변수 및 가변적이고 일정한 매개 변수가있는 유한 혼합물 . 통계 소프트웨어 저널, 28 (4), 1-35.


3

잠재 클래스 모델 (또는 잠재 프로파일 또는보다 일반적으로 유한 혼합 모델)은 군집화 (또는 비 감독 분류)에 대한 확률 적 모델로 생각할 수 있습니다. 목표는 일반적으로 동일합니다. 더 큰 인구 내에서 동종 그룹을 식별하는 것입니다. 잠재적 인 클래스 모델과 클러스터링에 대한 알고리즘 접근 방식의 주요 차이점은 전자가 클러스터링의 특성에 대한 이론적 추측에 더 적합하다는 것입니다. 잠재 클래스 모델은 확률 적이므로 가능성 통계를 통해 모델 적합을 평가하기위한 추가 대안을 제공하고 분류에서 불확실성을보다 잘 포착 / 보존합니다.

이에 몇 가지 유용한 가벼운 음식 찾을 수있는 스레드 뿐만 아니라,이 대답 CHL하여 관련 게시물에 있습니다.

또한 PCA 대 요인 분석에 대한 이 질문 과 비슷한 개념 (개념적 수준) 있습니다.


2

차이점은 잠재 클래스 분석은 숨겨진 데이터 (일반적으로 기능의 연관 패턴)를 사용하여 클래스의 기능에 대한 확률을 결정한다는 것입니다. 그런 다음 기능을 기반으로 항목을 클래스로 분리 할 수있는 최대 가능성을 사용하여 추론 할 수 있습니다.

군집 분석은 기능을 표시하고 가장 가까운 이웃, 밀도 또는 계층 구조와 같은 알고리즘을 사용하여 항목이 속하는 클래스를 결정합니다.

기본적으로 LCA 추론은 "확률을 사용하여 가장 유사한 패턴은 무엇입니까"로 생각할 수 있으며 군집 분석은 "거리를 사용하여 가장 가까운 것은 무엇입니까"입니다.


군집 분석에 대한 설명에서 "사물"이 무엇을 나타내는 지 설명 할 수 있습니까? 거리 측정을 기준으로 가장 가까운 '기능'입니까?
Brian P

물체는 물체 또는 피처 매개 변수로 입력 한 데이터 일 수 있습니다.
ccsv
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.