데이터 마이닝에서 분류와 클러스터링의 차이점은 무엇입니까? [닫은]


195

데이터 마이닝에서 분류와 클러스터링의 차이점이 무엇인지 설명 할 수 있습니까?

가능하다면 주요 아이디어를 이해하기 위해 두 가지 예를 제시하십시오.

답변:


242

일반적으로 분류에는 사전 정의 된 클래스 세트가 있으며 새 오브젝트가 속하는 클래스를 알고 자합니다.

그룹 시도를 개체의 집합을 클러스터링과가 있는지 찾아 일부 개체 사이의 관계.

기계 학습의 맥락에서 분류는 감독 학습 이며 클러스터링은 감독되지 않은 학습 입니다.

또한 Wikipedia의 분류클러스터링 을 살펴보십시오 .


3
답변 감사합니다. 내가 이해 한대로 분류에는 예제가 있으며이 예제를 하나 또는 다른 클래스로 정리합니다. 그러나 클러스터링에는 예제가 있지만 예제를 그룹화 할 클래스는 없습니다. 예를 기반으로 한 클러스터링에서 clases를 찾아야합니까? 내가 옳은가, 아니면 명심해야 할 중요한 것이 있는가? 그리고 간청 할 수 있습니까? Kristaps 감사합니다,
Kristaps

4
@ 크리스토스 : 지금까지 당신이 맞다고 생각합니다. 그러나 반드시 클러스터링이있는 클래스를 찾을 필요는 없습니다. 일부 항목 집합이 어떤 종류의 관계를 형성하는지 (일부 모델에서 서로 더 가까워짐) 여부를 더보고 싶습니다. 일반적으로 클래스를 찾지 못합니다 (클러스터링을 사용하여 분류 할 클래스를 찾는 경우). 그렇지 않습니다. 대신, 처음에는 레이블이 지정된 항목으로 구성된 학습 세트 가 있습니다 (따라서 어떤 클래스에 속하는지 알 수 있습니다). 그런 다음 분류 알고리즘을 훈련 하여 항목을 올바른 클래스에 할당하고
Felix Kling

4
정확성 (데이터에 레이블이 지정되어 있으므로 수행 할 수 있음). 분류의 일일 예는 스팸 필터링입니다. 스팸 필터는 메일이 스팸인지 아닌지를 결정해야합니다. 메일이 잘못 분류 된 경우 필터에 알릴 수도 있습니다. 클러스터링의 경우 실제로 예를 모르겠습니다. 그러나 예를 들어 1000 개의 트위터 메시지를 가져 와서 클러스터링을 시도한 다음 클러스터가 노출하는 관계를 조사 할 수 있습니다.
Felix Kling

분류클러스터링 모두 분류 방법 이라고 생각합니다 .
WoooHaaaa

@ 미로 그렇습니다.
bitek


57

데이터 마이닝 또는 기계 학습 담당자에게이 질문을 한 경우 감독 학습 및 비지도 학습이라는 용어를 사용하여 군집과 분류의 차이점을 설명합니다. 먼저 감독 및 감독되지 않은 키워드에 대해 설명하겠습니다.

지도 학습 : 바구니가 있고 신선한 과일로 채워져 있고 같은 유형의 과일을 한 곳에 배치하는 것이 임무라고 가정합니다. 과일이 사과, 바나나, 체리 및 포도라고 가정하십시오. 따라서 이전 작업에서 각 과일의 모양을 알 수 있으므로 한 장소에 동일한 유형의 과일을 쉽게 배열 할 수 있습니다. 여기서 이전 작업을 데이터 마이닝에서 훈련 된 데이터라고합니다. 그래서 당신은 이미 훈련 된 데이터로부터 사물을 배웁니다. 이것은 당신이 어떤 과일이 그렇게 특징이 있다면 그것은 각 과일마다 포도와 같은 포도라고 말하는 반응 변수 때문입니다.

이 유형의 데이터는 훈련 된 데이터에서 얻을 수 있습니다. 이러한 유형의 학습을지도 학습이라고합니다. 이 유형의 해결 문제는 분류에 따릅니다. 그래서 당신은 당신이 자신있게 일을 할 수 있도록 일들을 이미 배웁니다.

감독되지 않은 : 바구니가 있고 신선한 과일로 채워져 있고 동일한 유형의 과일을 한곳에 배치하는 것이 임무라고 가정하십시오.

이번에 당신은 그 과일에 대해 아무것도 몰라, 당신은 처음으로이 과일들을보고 있습니다. 그래서 당신은 어떻게 같은 종류의 과일을 배열 할 것입니까.

가장 먼저해야 할 일은 과일을 섭취하고 해당 과일의 물리적 특성을 선택하는 것입니다. 당신이 색깔을 sup다고 가정하십시오.

그런 다음 색을 기준으로 정렬 한 다음 그룹이 이와 같은 것입니다. 레드 컬러 그룹 : 사과 & 체리 과일. 녹색 색상 그룹 : 바나나 및 포도. 이제 다른 물리적 특성을 크기로 사용하므로 그룹은 이와 같은 것입니다. 붉은 색과 큰 크기 : 사과. 붉은 색과 작은 크기 : 체리 과일. 녹색과 큰 크기 : 바나나. 녹색과 작은 크기 : 포도. 일 끝 행복한 결말.

여기서 당신은 전에 아무것도 배우지 않았으며, 기차 데이터와 응답 변수가 없음을 의미합니다. 이러한 유형의 학습은 비지도 학습으로 알려져 있습니다. 클러스터링은 비지도 학습에 의해 제공됩니다.


18

+ 분류 : 몇 가지 새로운 데이터가 주어지며, 새로운 레이블을 설정해야합니다.

예를 들어, 회사는 잠재 고객을 분류하려고합니다. 새로운 고객이 오면 고객이 자신의 제품을 구매할 것인지 아닌지를 결정해야합니다.

+ 클러스터링 : 누가 무엇을 샀는지 기록한 일련의 기록 거래가 제공됩니다.

클러스터링 기술을 사용하면 고객의 세분화를 알 수 있습니다.


3
"새로운 고객이 오면이 제품을 구매할 고객인지 여부를 결정해야합니다." 로지스틱 회귀의 더 나은 후보입니다. 분류의 예는 고객이 "프리미엄", "표준"또는 "경제"모델을 구매할 것인지 예측하는 것입니다. 항공사 예 : 코치, 조기 탑승 코치, 다리 공간이 여분 인 코치.
GDB

16

머신 러닝에 대해 많은 분들이 들었습니다. 수십 명의 사람들이 그것이 무엇인지 알 수도 있습니다. 그리고 여러분 중 일부는 기계 학습 알고리즘으로 작업했을 수도 있습니다. 어디로 가는지 아나? 많은 사람들이 지금부터 5 년 동안 절대적으로 필수적인 기술에 익숙하지 않습니다. Siri는 기계 학습입니다. 아마존의 알렉사는 머신 러닝입니다. 광고 및 쇼핑 품목 추천 시스템은 기계 학습입니다. 2 살짜리 소년의 간단한 비유로 기계 학습을 이해하려고합시다. 그냥 재미로 Kylo Ren이라고 불러

출처 : blog.printkeg.com

Kylo Ren이 코끼리를 보았다고 가정 해 봅시다. 그의 뇌는 그에게 무엇을 말할 것인가? (그는 Vader의 후임자라도 최소한의 사고 능력을 가지고 있음을 기억하십시오). 그의 뇌는 그에게 회색의 큰 움직이는 생물을 보았다고 말할 것입니다. 그는 다음에 고양이를보고 그의 뇌는 그에게 황금색의 작은 움직이는 생물이라고 말합니다. 마지막으로, 그는 다음에 가벼운 세이버를 보았고 그의 뇌는 그에게 그가 살 수있는 비 생물 개체라고 말해줍니다!

이 시점에서 그의 뇌는 세이버가 코끼리와 고양이와 다르다는 것을 알고 있습니다. 왜냐하면 세이버는 놀아야 할 것이기 때문에 스스로 움직이지 않기 때문입니다. Kylo가 움직일 수있는 의미가 무엇인지 모르더라도 그의 뇌는 이것을 많이 알아낼 수 있습니다. 이 간단한 현상을 클러스터링이라고합니다.

출처 : jeffcarpenterblog.tumblr.com

기계 학습은이 과정의 수학적 버전 일뿐입니다. 통계를 연구하는 많은 사람들은 뇌가 작용하는 것과 같은 방식으로 방정식을 만들 수 있다는 것을 깨달았습니다. 뇌는 비슷한 물체를 모을 수 있고 뇌는 실수로부터 배울 수 있고 뇌는 사물을 식별하는 법을 배울 수 있습니다.

이 모든 것을 통계로 표현할 수 있으며이 프로세스의 컴퓨터 기반 시뮬레이션을 기계 학습이라고합니다. 왜 컴퓨터 기반 시뮬레이션이 필요한가요? 컴퓨터는 인간의 두뇌보다 더 빠른 수학을 할 수 있기 때문입니다. 나는 기계 학습의 수학적 / 통계 부분에 들어가고 싶지만 먼저 몇 가지 개념을 지우지 않고는 그것에 뛰어 들기를 원하지 않습니다.

Kylo Ren으로 돌아 갑시다. Kylo가 세이버를 집어 들고 연주한다고 가정 해 봅시다. 그는 우연히 폭풍우 조종사를 때리고 폭풍우 조종사가 부상을 당합니다. 그는 무슨 일이 일어나고 있는지 이해하지 못하고 계속 재생합니다. 다음으로 그는 고양이를 때리고 고양이가 다쳤다. 이번에 Kylo는 자신이 나쁜 일을했다고 확신하고 다소주의를 기울입니다. 그러나 그의 나쁜 세이버 기술을 감안할 때, 그는 코끼리를 때리고 그는 곤경에 처해 있음을 절대적으로 확신합니다. 그 후 그는 매우 조심스럽게되고, 우리가 깨어 난 힘에서 보았을 때 아버지를 의도적으로 때리는 것입니다 !!

출처 : joyreactor.com

실수로부터 배우는이 전체 과정은 방정식으로 모방 될 수 있는데, 여기서 무언가 잘못한 느낌이 오류나 비용으로 표현됩니다. 세이버와 관련이없는 것을 식별하는이 프로세스를 분류라고합니다. 클러스터링 및 분류는 기계 학습의 절대 기본입니다. 그들 사이의 차이점을 보자.

Kylo는 그의 뇌가 가벼운 세이버가 스스로 움직일 수 없어서 다르다고 판단했기 때문에 동물과 가벼운 세이버를 구별했습니다. 결정은 존재하는 대상 (데이터)만을 기반으로하며 외부의 도움이나 조언은 제공되지 않았습니다. 이에 반해 Kylo는 물체에 부딪히는 일을 먼저 관찰하여 가벼운 세이버에주의하는 것이 중요하다는 점을 차별화했습니다. 결정은 세이버를 완전히 기반으로 한 것이 아니라 다른 객체에 대해 수행 할 수있는 작업에 기반한 것입니다. 요컨대, 여기에 도움이있었습니다.

출처 : 핀트 레스트

이러한 학습 차이로 인해 클러스터링을 비지도 학습 방법이라고하고 분류를지도 학습 방법이라고합니다. 머신 러닝 세계에서는 매우 다르며 종종 존재하는 데이터의 종류에 따라 결정됩니다. 분류 된 데이터가 크면 레이블이있는 데이터 (또는 카일로의 경우 스톰 트루퍼, 코끼리, 고양이와 같이 학습에 도움이되는 것들)를 얻는 것이 쉽지 않은 경우가 많습니다. 반면에 레이블이없는 학습은 레이블 제목이 무엇인지 모르는 것과 같이 고유 한 단점이있을 수 있습니다. Kylo가 예나 도움없이 세이버를 조심스럽게 배우는 것을 배우면, 그것이 무엇을할지 모를 것입니다. 그는 그것이 수행 될 것으로 추정되지 않는다는 것을 알고있을 뿐이다. 그것은 일종의 절름발이 유사하지만 당신은 요점을 얻습니다!

이제 머신 러닝을 시작하고 있습니다. 분류 자체는 연속 숫자의 분류 또는 레이블의 분류 일 수 있습니다. 예를 들어, Kylo가 각 폭풍우 조종사의 높이를 분류해야한다면 높이가 5.0, 5.01, 5.011 등일 수 있기 때문에 많은 대답이있을 것입니다. 답변이 매우 제한적입니다. 실제로 그것들은 간단한 숫자로 표현 될 수 있습니다. 빨강은 0 일 수 있고 파랑은 1 일 수 있으며 녹색은 2 일 수 있습니다.

기본 수학을 알고 있다면 0,1,2와 5.1,5.01,5.011이 다르고 각각 이산 및 연속 번호라고합니다. 불연속 숫자의 분류를 로지스틱 회귀라고하고 연속 숫자의 분류를 회귀라고합니다. 로지스틱 회귀는 범주 분류라고도하므로이 용어를 다른 곳에서 읽을 때 혼동하지 마십시오

이것은 기계 학습에 대한 매우 기본적인 소개였습니다. 다음 포스트에서 통계적 측면에 대해 살펴 보겠습니다. 수정이 필요한 경우 알려주십시오. :)

두 번째 부분은 여기에 게시 되었습니다 . 여기에 이미지 설명을 입력하십시오


2
Amit, 블로그 링크를 링크 대신 답변에 추가하지 않겠습니까? 사이트가 다운되고 그에 대한 답변으로 인해 링크 만 답답해집니다.
Mathemats

3
감사. 나는 그렇게 할 것이다 :)
Juneja

2
"이산 수의 분류를 로지스틱 회귀 (Logistic Regression)"라고합니다 . LR은 분류 (RF, GBT / XGB), NN 기반 등 의 분류에 사용될 수있는 여러 가지 가능한 기술 중 하나 일뿐 입니다 . 당신은 "연속적인 숫자의 예측" 을 의미합니다 .
smci

7

저는 데이터 마이닝에 새로 온 사람이지만 교과서에 따르면 CLASSICIATION은지도 학습과 감독되지 않은 학습 클러스터링으로 간주됩니다. 지도 학습과 비지도 학습의 차이점은 여기 에서 찾을 수 있습니다 .


6

분류

예제 학습 을 기반으로 미리 정의 된 클래스새로운 관찰에 할당 합니다.

머신 러닝의 주요 작업 중 하나입니다.

클러스터링 (또는 클러스터 분석)

"감독되지 않은 분류"로 널리 해고되었지만 상당히 다릅니다.

많은 기계 학습자가 가르쳐 줄 내용과 달리 "클래스"를 객체에 할당하는 것이 아니라 미리 정의하지 않은 것입니다. 이것은 너무 많은 분류를 한 사람들에 대한 매우 제한된 견해입니다. 망치 (분류기)가있는 경우 의 전형적인 예는 모든 것이 당신에게 손톱 (분류 문제)처럼 보입니다 . 그러나 분류 사람들이 클러스터링을 중단하지 않는 이유이기도합니다.

대신, 그것을 구조 발견 으로 고려하십시오 . 클러스터링 작업은 데이터에서 이전에 몰랐던 구조 (예 : 그룹)를 찾는 것 입니다. 새로운 것을 배우 클러스터링에 성공했습니다 . 이미 알고있는 구조 만 가지고 있으면 실패했습니다.

클러스터 분석은 데이터 마이닝의 핵심 작업입니다 (머신 러닝의 추악한 오리 새끼이므로 클러스터링을 해제하는 머신 러닝 사용자의 말을 듣지 마십시오).

"비지도 학습"은 다소 옥시 모론입니다

이것은 문헌을 위아래로 반복했지만 감독되지 않은 학습은 블로시 입니다. 존재하지 않지만 "군사 정보"와 같은 옥시 모론입니다.

알고리즘은 예제를 통해 배우거나 ( "감독 학습") 배우지 않습니다. 모든 클러스터링 방법이 "학습"인 경우 데이터 세트의 최소, 최대 및 평균 계산도 "비지도 학습"입니다. 그런 다음 계산에서 출력을 "학습"했습니다. 따라서 '비지도 학습'이라는 용어는 전혀 의미가 없으며 모든 것을 의미합니다.

그러나 일부 "비지도 학습"알고리즘은 최적화 범주에 속합니다. 예를 들어 k- 평균 최소 제곱 최적화입니다. 이러한 방법은 통계 전체에 적용되므로 "비지도 학습"이라는 레이블을 지정할 필요는 없지만 대신 "최적화 문제"라고 부르는 것이 좋습니다. 더 정확하고 의미가 있습니다. 최적화와 관련이없고 머신 러닝 패러다임에 잘 맞지 않는 많은 클러스터링 알고리즘이 있습니다. 그러니 우산 아래에 "감독되지 않은 학습"이라는 압박을 멈추십시오.

클러스터링과 관련된 "학습"이 있지만 배우는 프로그램은 아닙니다. 자신의 데이터 세트에 대해 새로운 것을 배우는 것은 사용자입니다.


이 답변을 통해 내가 분류 담당자라는 것을 알 수있었습니다. 정말 도움이되었습니다.
Kta

모든 클러스터링 알고리즘은 일반적인 메타 모델을 가정합니다. Btw도 마찬가지입니다. 예를 들어 신경망 (NN)과 같은지도 학습도 마찬가지입니다. 두 경우 모두 (감독 및 비 감독) 일반 메타 모델의 매개 변수를 최적화하여 (때로는 숨겨진) 비용 함수에 따라 데이터에 맞 춥니 다. 이 부분을 "학습"이라고합니다. 클러스터링과 분류에 모두 적용됩니다. 두 경우 모두 제시된 데이터에 따라 최적화하여 특정 모델 (가정 된 일반 메타 모델을 기반으로 함)을 학습합니다. 최적화 된 특정 클러스터링 모델을 사용하여 데이터를 그룹으로 클러스터링 할 수 있습니다.
Make42

TL; DR : 당신은 클러스터링은 그 권리입니다 하지 - "자율 classifcation"하지만 usupervised 학습이 아닌 모순입니다 학습이 일어나고있다 !
Make42

예를 들어 DBSCAN의 "학습"은 어디에 있습니까?
종료-익명-무스 1

4

군집화를 통해 추출 된 군집의 수, 모양 및 기타 특성과 같은 원하는 특성으로 데이터를 그룹화 할 수 있습니다. 분류에서 그룹의 수와 모양은 고정되어 있습니다. 대부분의 클러스터링 알고리즘은 클러스터 수를 매개 변수로 제공합니다. 그러나 적절한 수의 클러스터를 찾는 몇 가지 방법이 있습니다.


4

우선 많은 답변과 마찬가지로 분류는 감독 학습이며 클러스터링은 감독되지 않습니다. 이것은 다음을 의미합니다.

  1. 분류에는 분류 된 데이터가이 데이터에 대해 학습 될 수 있도록 레이블이 지정된 데이터가 필요하며, 그 후에는 자신이 알고있는 것을 기반으로 보이지 않는 새로운 데이터를 분류하기 시작합니다. 클러스터링과 같은 비지도 학습은 레이블이 지정된 데이터를 사용하지 않으며 실제로 수행하는 작업은 그룹과 같은 데이터에서 고유 한 구조를 발견하는 것입니다.

  2. 두 기술 (이전 기술과 관련)의 또 다른 차이점은 분류가 출력이 범주 형 종속 변수 인 이산 회귀 문제의 한 형태라는 사실입니다. 클러스터링의 출력은 그룹이라는 서브 세트 세트를 생성합니다. 이 두 모델을 평가하는 방법도 같은 이유로 다릅니다. 분류에서는 종종 정밀도와 리콜, 오버 피팅 및 언더 피팅 등을 확인해야합니다. 이러한 것들은 모델이 얼마나 좋은지 알려줍니다. 그러나 클러스터링에서는 일반적으로 찾은 구조 유형 (그룹 또는 클러스터 유형)을 모르기 때문에 찾은 내용을 해석 할 비전과 전문가가 필요합니다. 이것이 클러스터링이 탐색 적 데이터 분석에 속하는 이유입니다.

  3. 마지막으로 응용 프로그램이 두 가지의 주요 차이점이라고 말하고 싶습니다. 단어가 말하는 것처럼 분류는 클래스 또는 다른 클래스, 예를 들어 남자 또는 여자, 고양이 또는 개에 속하는 인스턴스를 구별하는 데 사용됩니다. 클러스터링은 종종 의학적 질병 진단, 패턴 발견, 기타


3

분류 : 이산 출력의 결과 예측 => 입력 변수를 이산 범주로 매핑

여기에 이미지 설명을 입력하십시오

널리 사용되는 사례 :

  1. 이메일 분류 : 스팸 또는 스팸이 아닌

  2. 고객에 대한 제재 대출 : 제재 된 대출 금액에 대해 EMI를 지불 할 수있는 경우 가능합니다. 그가 할 수 없다면 아니

  3. 암 종양 세포 식별 : 중요하거나 중요하지 않습니까?

  4. 트윗의 감정 분석 : 트윗이 긍정적이거나 부정적이거나 중립적입니까

  5. 뉴스 분류 : 뉴스를 정치, 스포츠, 건강 등 사전 정의 된 클래스 중 하나로 분류합니다.

클러스터링 (Clustering) : 같은 그룹 (클러스터)의 개체가 다른 그룹 (클러스터)의 개체와 더 비슷하게 (클러스터라고 함) 개체 집합을 그룹화하는 작업입니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

널리 사용되는 사례 :

  1. 마케팅 : 마케팅 목적으로 고객 세그먼트를 발견

  2. 생물학 : 식물과 동물의 다른 종의 분류

  3. 라이브러리 : 주제 및 정보를 기반으로 다른 책 클러스터링

  4. 보험 : 고객, 고객의 정책을 인정하고 사기를 식별

  5. 도시 계획 : 집을 그룹화하고 지리적 위치 및 기타 요인에 따라 가치를 연구합니다.

  6. 지진 연구 : 위험 지역 식별

  7. 추천 시스템 :

참고 문헌 :

괴짜

데이터

3 엽면


2

분류 – 범주 형 클래스 레이블을 예측합니다. – 훈련 세트 및 클래스 레이블 속성의 값 (클래스 레이블)을 기준으로 데이터를 분류합니다 (모델 구성) – 새 데이터를 분류하는 데 모델을 사용합니다

클러스터 : 동일한 클러스터 내에서 서로 유사한 데이터 개체 모음 – 다른 클러스터의 개체와 유사하지 않음


2

클러스터링은 데이터에서 그룹을 찾는 것을 목표로합니다. "클러스터"는 직관적 인 개념이며 수학적으로 엄격한 정의가 없습니다. 한 클러스터의 구성원은 서로 유사해야하며 다른 클러스터의 구성원과 유사하지 않아야합니다. 클러스터링 알고리즘은 레이블이 지정되지 않은 데이터 세트 Z에서 작동하며 파티션에 파티션을 생성합니다.

클래스 및 클래스 레이블의 경우 클래스는 유사한 객체를 포함하지만 다른 클래스의 객체는 유사하지 않습니다. 일부 클래스는 명확한 의미를 가지고 있으며 가장 간단한 경우 상호 배타적입니다. 예를 들어 서명 확인에서 서명은 정품이거나 위조 된 것입니다. 실제 클래스는 두 가지 중 하나입니다. 특정 서명을 관찰하여 정확하게 추측 할 수없는 경우에도 마찬가지입니다.


2

클러스터링은 유사한 기능을 가진 개체가 모이고 다른 기능을 가진 개체가 분리되는 방식으로 개체를 그룹화하는 방법입니다. 머신 러닝 및 데이터 마이닝에 사용되는 통계 데이터 분석을위한 일반적인 기술입니다.

분류는 학습 데이터 세트를 기반으로 객체를 인식, 차별화 및 이해하는 분류 프로세스입니다. 분류는 학습 세트와 올바르게 정의 된 관찰을 사용할 수있는 감독 학습 기법입니다.


2

Book Mahout in Action에서 그 차이점을 잘 설명한다고 생각합니다.

분류 알고리즘은 k- 평균 알고리즘과 같은 클러스터링 알고리즘과 관련되어 있지만 여전히 다릅니다.

분류 알고리즘은 클러스터링 알고리즘에서 발생하는 비지도 학습과 달리지도 학습의 한 형태입니다.

지도 학습 알고리즘은 목표 변수의 원하는 값을 포함하는 예제를 제공하는 알고리즘입니다. 감독되지 않은 알고리즘에는 원하는 대답이 제공되지 않지만 그 자체로 그럴듯한 것을 찾아야합니다.


2

분류를위한 1 개의 강선 :

데이터를 사전 정의 된 카테고리로 분류

클러스터링을위한 하나의 라이너 :

데이터를 일련의 범주로 그룹화

주요 차이점 :

분류는 데이터를 가져와 미리 정의 된 범주로 분류하고 데이터를 그룹화하려는 범주 집합을 클러스터링하는 데 미리 알려지지 않았습니다.

결론:

  • 분류는 이미 레이블이 지정된 항목을 기준으로 범주를 1 개의 새 항목에 할당하는 반면, 클러스터링은 레이블이없는 항목을 가져 와서 범주로 나눕니다.
  • 분류에서, 분류 될 카테고리 / 그룹은 미리 알려져 있고, 클러스터링에서, 분류 될 카테고리 / 그룹은 미리 알려져 있지 않다.
  • 분류에는 교육 단계와 테스트 단계의 두 단계가 있습니다 (클러스터링의 경우 단계 1) – 교육 데이터를 클러스터로 나누는 단계
  • 클러스터링이 비지도 학습 인 반면 분류는지도 학습입니다

나는 당신이 여기에서 찾을 수있는 동일한 주제에 대한 긴 게시물을 작성했습니다.

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/


1

선반에 날짜 또는 파일의 다른 사양을 기준으로 많은 수의 시트를 제출하려고하면 분류 중입니다.

시트 세트에서 클러스터를 작성하는 경우 시트간에 유사한 것이 있음을 의미합니다.


1

데이터 마이닝 "감독 된"및 "감독되지 않은"에는 두 가지 정의가 있습니다. 누군가가 컴퓨터, 알고리즘, 코드, ... 이것이 사과와 같고 주황색과 같다고 말할 때, 이것은 감독 학습이며 감독 학습 (데이터 세트의 각 샘플에 대한 태그와 같은)을 사용하여 데이터를 분류 할 수 있습니다. 그러나 반면에 컴퓨터가 주어진 데이터 세트의 기능을 구분하고 실제로 감독되지 않은 학습을 통해 데이터 세트를 분류하는 것을 클러스터링이라고합니다. 이 경우 알고리즘에 공급되는 데이터에는 태그가 없으며 알고리즘은 다른 클래스를 찾아야합니다.


1

머신 러닝 또는 AI는 수행 / 수행하는 작업에 의해 크게 인식됩니다.

내 생각에, 작업 개념에 대한 클러스터링 및 분류에 대해 생각함으로써 실제로 달성되는 두 가지의 차이점을 이해하는 데 도움이 될 수 있습니다.

클러스터링은 사물을 그룹화하는 것이고 분류는 사물을 분류하는 것입니다.

모든 남성이 정장에 있고 여성이 가운에있는 파티 홀에 있다고 가정 해 봅시다.

이제 친구에게 몇 가지 질문을합니다.

Q1 : 안녕하세요, 사람들을 그룹화 할 수 있습니까?

친구가 할 수있는 가능한 답변은 다음과 같습니다.

1 : 성별, 남성 또는 여성을 기준으로 사람들을 그룹화 할 수 있습니다.

2 : 그는 자신의 옷을 기준으로 사람들을 그룹화 할 수 있습니다.

3 : 머리카락의 색을 기준으로 사람들을 그룹화 할 수 있습니다.

4 : 나이 그룹 등에 따라 사람들을 그룹화 할 수 있습니다.

이들은 친구가이 작업을 완료 할 수있는 수많은 방법입니다.

물론 다음과 같은 추가 입력을 제공하여 의사 결정 프로세스에 영향을 줄 수 있습니다.

성별 (또는 연령대, 머리 색 또는 복장 등)을 기준으로 이러한 사람들을 그룹화 할 수 있습니까?

Q2 :

Q2 전에는 사전 작업을 수행해야합니다.

친구가 정보에 입각 한 결정을 내릴 수 있도록 가르치거나 알려 주어야합니다. 따라서 친구에게 다음과 같이 말했다고 가정 해 봅시다.

  • 긴 머리를 가진 사람들은 여성입니다.

  • 짧은 머리를 가진 사람들은 남자입니다.

Q2. 자, 당신은 긴 머리를 가진 사람을 지적하고 친구에게 물어보십시오-남자입니까, 여자입니까?

당신이 기대할 수있는 유일한 대답은 : 여성입니다.

물론 파티에 긴 머리카락을 가진 남성과 짧은 머리카락을 가진 여성이있을 수 있습니다. 그러나 답은 당신이 친구에게 제공 한 학습에 근거하여 정확합니다. 두 사람을 구별하는 방법에 대해 친구에게 더 많이 가르치면 과정을 더 향상시킬 수 있습니다.

위의 예에서

Q1은 클러스터링이 수행하는 작업을 나타냅니다.

클러스터링에서는 데이터 (사람)를 알고리즘 (친구)에게 제공하고 데이터를 그룹화하도록 요청합니다.

이제 그룹화하는 가장 좋은 방법을 결정하는 것은 알고리즘에 달려 있습니까? (성별, 색상 또는 연령 그룹).

다시 한 번, 추가 입력을 제공하여 알고리즘의 결정에 영향을 줄 수 있습니다.

Q2는 분류가 수행하는 작업을 나타냅니다.

거기에서 알고리즘 (친구)에게 훈련 데이터라고하는 데이터 (사람)를 제공하고 어떤 데이터가 어떤 레이블 (남성 또는 여성)에 해당하는지 알게합니다. 그런 다음 알고리즘을 테스트 데이터라고하는 특정 데이터를 가리키고 남성인지 여성인지를 묻습니다. 당신의 가르침이 좋을수록 더 잘 예측됩니다.

Q2 또는 분류의 사전 작업은 모델을 교육하여 차별화하는 방법을 배울 수 있습니다. 클러스터링 또는 Q1에서이 사전 작업은 그룹화의 일부입니다.

이것이 누군가를 돕기를 바랍니다.

감사


1

여기에 이미지 설명을 입력하십시오

분류 -데이터 세트는 다른 그룹 / 클래스를 가질 수 있습니다. 빨강, 녹색 및 검정. 분류는 다른 클래스로 나누는 규칙을 찾으려고합니다.

커 스터링 -데이터 세트에 클래스가없고 일부 클래스 / 그룹화에 배치하려는 경우 클러스터링을 수행합니다. 위의 자주색 원.

분류 규칙이 좋지 않은 경우 테스트에서 분류가 잘못되었거나 ur 규칙이 충분하지 않습니다.
클러스터링이 좋지 않으면 많은 특이 치가 있습니다. 데이터 포인트가 클러스터에 속할 수 없습니다.


1

분류와 클러스터링의 주요 차이점은 다음과 같습니다. 분류는 클래스 레이블을 사용하여 데이터를 분류하는 프로세스입니다. 반면, 클러스터링은 분류와 유사하지만 사전 정의 된 클래스 레이블이 없습니다. 분류는지도 학습과 연계됩니다. 반대로 클러스터링은 비지도 학습이라고도합니다. 클러스터링의 경우 훈련 데이터가 제공되지 않지만 분류 방법에는 훈련 샘플이 제공됩니다.

이것이 도움이되기를 바랍니다!


-1

분류는 데이터 세트의 레코드를 사전 정의 된 클래스로 분류하거나 이동 중에 클래스를 정의하는 것으로 생각합니다. 나는 그것을 귀중한 데이터 마이닝의 전제 조건으로보고, 감독되지 않은 학습에서 생각하고 싶습니다. 즉, 데이터를 채굴하면서 찾고있는 것을 알지 못합니다. 분류는 좋은 출발점입니다.

다른 쪽의 클러스터링은지도 학습에 속합니다. 즉 어떤 매개 변수를 찾아야하는지, 중요한 수준과 매개 변수 간의 상관 관계를 알고 있습니다. 통계와 수학에 대한 이해가 필요하다고 생각합니다.


3
실제로 다른 방법입니다. 분류는 일반적으로 감독되고 클러스터링은 일반적으로 감독되지 않습니다.
AlexK
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.