감독 클러스터링 또는 분류?


22

두 번째 질문은 웹에서 어딘가에서 "감독 클러스터링"에 대해 이야기하고 있다는 것을 알았습니다. 클러스터링은 감독되지 않았으므로 "감독 클러스터링"의 의미는 무엇입니까? "분류"와 관련하여 차이점은 무엇입니까?

그것에 대해 이야기하는 많은 링크가 있습니다.

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

등 ...


"웹 어딘가에서 토론"의 링크를 제공하십시오
Atilla Ozgur


1
"클러스터링"은 "감독되지 않은 분류"와 동의어이므로 "감독 된 클러스터링"은 옥시 모론입니다. 그러나 자체 구성 맵은 감독되지 않은 분류에 사용되는 감독 된 기술이며 "감독 된 클러스터링"에 가장 가까운 것이라고 주장 할 수 있습니다.
Digio

내가 아직 이해 한 한 "클러스터링을 사용하여 데이터를 추가 처리 할 준비가되거나 최소한 분석 할 준비가되게한다"는 점에서 클러스터링에서하는 일은 데이터를 클래스 A, B, C 등 ... 이제이 데이터는 어떤 방식으로 감독됩니다. 이제이 데이터로 수행하려는 작업 또는 분류 작업 또는 회귀 분석 중 어떤 방법으로이 데이터가 유용한 지에 따라 달라집니다. 내가 틀렸다면 나를 바로 잡으십시오.
sak

답변:


2

내 순진한 이해는 지정된 클래스 집합이 있고 새로운 것 / 데이터 세트 를 지정된 클래스 중 하나로 분류하려는 경우 분류가 수행된다는 입니다.

또는 클러스터링을 시작할 필요가 없으며 모든 데이터 (새 데이터 포함)를 사용하여 클러스터로 분리합니다.

둘 다 거리 측정법 을 사용 하여 군집 / 분류 방법을 결정합니다. 차이점은 분류는 이전에 정의 된 클래스 세트를 기반으로하지만 클러스터링은 전체 데이터를 기반으로 클러스터를 결정한다는 것입니다.

다시 한 번 순진한 이해는 감독 된 클러스터링은 여전히 ​​전체 데이터를 기반으로 클러스터링되므로 분류가 아닌 클러스터링이라는 것입니다.

실제로 클러스터링과 분류에 대한 이론이 서로 얽혀 있다고 확신합니다.


나는 겸손하게 동의하지 않습니다. 당신은 "분류"가 정의에 의해 그리고 기본적으로 감독 된 프로세스이며, 사실이 아니라고 제안합니다. 분류는 감독 및 감독되지 않은 사례로 나뉘며, 후자는 군집과 동의어입니다.
Digio

15

나는 당신보다 더 많은 것을 생각하지 않지만, 당신이 게시 한 링크가 답변을 제안합니다. 내가 할게요 http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf를 예로 들어. 기본적으로 그들은 다음과 같이 말합니다 : 1) 군집은 거리에 달려 있습니다. 2) k- 평균을 성공적으로 사용하려면 신중하게 선택한 거리가 필요합니다. 3) 원하는 파티셔닝을 가진 아이템 세트 형태의 훈련 데이터가 주어지면 k- 평균이 원하는 클러스터링을 생성하도록 거리 측정을 배우는 구조적 SVM 방법을 제공합니다. 이 경우 교육 데이터와 학습이 모두 포함 된 클러스터링에 감독 단계가 있습니다. 이 단계의 목적은 훈련 데이터가 응용 영역과 얼마나 잘 일치하는지에 따라이 거리로 k- 평균 군집을 적용하는 것이 희망적으로 최적이되도록 거리 함수를 배우는 것입니다. 머신 러닝 및 클러스터링에 적합한 모든 일반적인 경고 사항이 여전히 적용됩니다.

기사에서 추가 인용 : 감독 클러스터링은 항목 세트와 이러한 항목 세트의 완전한 파티셔닝으로 구성된 교육 세트를 사용하여 클러스터링 알고리즘을 자동으로 조정하는 작업입니다. . 그것은 합리적인 정의처럼 보입니다.


문제는 간단합니다. 왜 레이블이 지정된 학습 데이터 세트에서 거리 측정을 배우고 클러스터링 방법으로이 거리 측정을 적용하려고합니까? 왜 당신은 감독 방법을 사용하지 않을 것입니다. 다시 말해, 클러스터링 (예 : 데이터 세트를 클러스터로 파티셔닝)을 수행하려고하지만 이미 원하는 파티셔닝이 완료되어 있고이를 사용하여 거리 측정법을 배우고이 학습을 사용하여이 데이터 세트에 클러스터링을 적용한다고 가정합니다. 거리. 기껏해야 거리 측정법을 배우는 데 사용한 것과 동일한 파티션을 얻을 수 있습니다! 당신은 이미
SHN

"이 데이터에 클러스터링 적용"을 쓰는 경우 "유사한 데이터 세트에 클러스터링 적용"을 대체하십시오. 이 시나리오는 다음과 같습니다. 실험 X에는 데이터 A와 B가 있습니다. A는 클러스터링을위한 것이고 B는 거리를 학습하는 데 도움이됩니다. B는 금본위 제를 설정하고 획득하는데 비용이 많이들 것입니다. 후속 실험 X2, X3 .. 우리는 A를 얻지 만 B를 구할 여유가 없다.
micans

자, 이제 데이터 셋 B에서 "거리 학습"이라고 말할 때 : "일부 거리 임계 값 학습"또는 "거리 메트릭 기능 학습"(파라미터 비 유사성 측정)을 의미합니까?
shn

1
두 번째는 "거리 측정 기능 학습"을 의미합니다. 참고로, 위의 간단한 A 및 B 공식은 인용 된 원고에서 찾을 수 있습니다. "올바른 군집을 갖춘 항목 세트에 대한 교육 예제를 제공하는 목표는 향후 항목 세트가 군집되도록 유사성 측정법을 배우는 것입니다. 비슷한 방식으로 "
micans

1
그렇다면 "감독 클러스터링"은 "반 감독 클러스터링"과 매우 유사합니다. 지금까지는 아무런 차이가 없습니다. 그건 그렇고, 일부 다른 논문에서 "(반) 감독 클러스터링"은 미래의 데이터 세트를 유사한 방식으로 클러스터링하는 데 사용되는 "수정 된 거리 함수 생성"을 의미하지 않습니다. 오히려 거리 함수를 변경하지 않고 "클러스터링 알고리즘 자체 수정"에 관한 것입니다!
shn

3

일부 정의 :

감독 클러스터링 은 단일 클래스에 대해 높은 확률 밀도를 갖는 클러스터를 식별하기 위해 분류 된 예에 적용됩니다.

비지도 클러스터링 은 특정 객체 기능, 예를 들어 클러스터 내부의 거리를 최소화하여 클러스터를 단단히 유지하는 기능을 사용하는 학습 프레임 워크입니다.

반 감독 클러스터링 은 클러스터링 프로세스에서 부가 정보를 사용하여 클러스터링 알고리즘을 향상시키는 것입니다.

신경망의 발전-ISNN 2010

이 분야의 초보자이기 때문에 너무 많은 전문 용어를 사용하지 않으면 감독 클러스터링을 이해하는 방식 이 다음과 같이 줄어 듭니다

. 감독 클러스터링에서는 하향식 에서 시작합니다.미리 정의 된 클래스를 사용한 다음 상향식 접근 방식 을 사용하면 클래스에 더 적합한 객체 를 찾을 수 있습니다.

예를 들어, 모집단에서 선호하는 오렌지 유형에 관한 연구를 수행했습니다.
많은 종류의 오렌지 중에서 특정 종류의 오렌지가 선호되는 것을 발견했습니다.
그러나 이러한 유형의 오렌지는 감염, 기후 변화 및 기타 환경 물질에 매우 민감하고 불안정합니다.
그래서 당신은 그 모욕에 매우 강한 다른 종들과 그것을 넘기고 싶어합니다.
그런 다음 실험실로 가서 한 유형의 육즙과 달콤한 맛과 다른 유형의 내성 기능을 담당하는 유전자를 발견했습니다.
몇 가지 실험을 수행하고 수백 가지의 다른 하위 유형의 오렌지로 끝납니다.
이제 설명 된 속성에 완벽하게 맞는 하위 유형에 관심이 있습니다.
당신은 당신의 인구에서 다시 같은 연구를 수행하고 싶지 않습니다 ...
당신은 완벽한 오렌지에서 찾고있는 속성을 알고 있습니다.
따라서 클러스터 분석을 실행하고 기대에 가장 적합한 것을 선택하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.