비지도,지도 및 반지도 학습


27

기계 학습의 맥락에서 차이점은 무엇입니까?

  • 비지도 학습
  • 지도 학습 및
  • 반지도 학습?

그리고 살펴볼 주요 알고리즘 접근법은 무엇입니까?


8
첫째, 위키의 두 줄 : "컴퓨터 과학에서, 반 감독 학습은 레이블이있는 데이터와 레이블이없는 데이터를 훈련에 사용하는 일종의 기계 학습 기술입니다. 일반적으로 레이블이없는 데이터가 많은 소량의 레이블이있는 데이터입니다. 반지도 학습은 비지도 학습 (레이블이없는 학습 데이터 없음)과지도 학습 (완전하게 레이블이 지정된 교육 데이터가 있음) 사이에 속합니다. " 도움이 되나요?

"알고리즘 접근법"과 관련하여 무엇을 생각하고 있습니까? 내 대답에 응용 프로그램의 예를 들었습니다. 찾고 계신 것입니까?
피터 Smit

답변:


20

일반적으로 기계 학습의 문제는 분류, 예측 또는 모델링을위한 함수 추정의 변형으로 간주 될 수 있습니다.

지도 학습 에서는 입력 ( x1 , x2 , ...,) 및 출력 ( y1 , y2 , ...,)이 제공되며 일반화 방식으로이 동작과 유사한 기능을 찾는 데 어려움을 겪습니다. 결과는 클래스 레이블 (분류) 또는 실수 (회귀) 일 수 있습니다. 이것은 감독 학습의 "감독"입니다.

x1x2

반 감독 학습 에는 레이블이있는 데이터와 레이블이없는 데이터에 대한 함수 추정이 포함됩니다. 레이블이없는 데이터는 일반적으로 생성되지 않지만 레이블이있는 데이터는 종종 생성하는 데 비용이 많이 들기 때문에 이러한 접근 방식이 동기가됩니다. 여기서 해결해야 할 과제는 이러한 방식으로 혼합 된 데이터를 처리하는 방법에 대한 기술적 문제입니다. 반 감독 학습 방법에 대한 자세한 내용 은이 반 감독 학습 문학 설문 조사 를 참조하십시오.

a1a2r1r2


1
당신의 대답 종류는 가능하면 반지도 학습보다지도 학습이 바람직하다는 것을 암시합니다. 그 맞습니까? 그렇지 않다면 언제 반 감독 학습이 더 좋을까요?
naught101

@ naught101 그의 대답에서 어떻게 읽습니까? 나는 John의 말에 동의하지만, 당신이 말하는 것과는 반대되는 말을합니다. 즉, 레이블이있는 데이터와 레이블이없는 데이터 (일반적으로 레이블이있는 데이터의 양보다 훨씬 많은 양)가있는 경우 레이블이있는 데이터 만 사용할 수있는 것보다 모든 데이터를 사용할 수있는 것이 좋습니다. 준지도 학습을 사용하는 요점은지도 학습 또는 비지도 학습을 수행하여 얻은 성과를 능가하는 것입니다.
HelloGoodbye

@HelloGoodbye : semi-supervised learning에 지정된 유일한 이점은 경우에 따라 더 저렴하지만 더 도전적인 단점이 있다는 것입니다. 더 많은 진실 정보가 제공된다면 완전히지도 된 학습이 더 쉽고 정확할 것입니다 (다른 모든 것들은 동일 함). 그래서 나는 두 감독 사이의 선택이 주어질 때 반 감독이 선호되는 예를 요구하고있었습니다. 귀하의 의견은 의미가 있지만 모든 데이터에 라벨이 붙어 있고 여전히 반 감독을 선호하는 경우가 있습니까?
naught101

@ naught101 모든 데이터에 레이블이 지정되어 있으면 일반 감독 학습을 사용하는 대신 반 감독 학습을 사용하여 크게 이길 수는 없습니다. 레이블이없는 데이터가 많고 semi-supervised learning을 수행 할 때 성능이 향상되는 주된 이유는 학습 학습을 전송하고 레이블이없는 데이터에서 경험을 이끌어 낼 수 있기 때문입니다.
HelloGoodbye 2016 년

@ naught101 그러나, 네트워크에 출력 데이터로부터 입력 데이터를 가능한 한 양호하게 재생성하는 작업을 제공함으로써 (즉, 감독되지 않은 학습의 일종 인 자동 인코더 구현) 네트워크는 데이터의 좋은 표현을 학습해야합니다. 이것은 일종의 정규화 역할을 할 수 있으며, 이는 또한 유익한 것으로 입증 될 수 있습니다. 따라서 모든 데이터에 레이블이 지정되어 있어도 일반적인 감독 학습 대신에 반 감독 학습을 사용하면 약간의 승리가있을 수 있습니다. 이 효과가 얼마나 큰지 모르겠습니다.
HelloGoodbye 2016 년

13

비지도 학습

비지도 학습은 교육에 사용할 수있는 레이블이있는 데이터가 없을 때입니다. 이것의 예는 종종 클러스터링 방법입니다.

지도 학습

이 경우 교육 데이터에 레이블이 지정된 데이터가 없습니다. 여기서 해결해야 할 문제는 종종 레이블이없는 데이터 포인트의 레이블을 예측하는 것입니다.

반 감독 학습

이 경우 레이블이있는 데이터와 레이블이없는 데이터가 모두 사용됩니다. 예를 들어, 일부 계층은 데이터의 구조를 학습하고 (비 관리) 한 계층은 분류를 수행하는 데 사용되는 심층 네트워크에서 사용될 수 있습니다 (관리되는 데이터로 훈련).


7

감독 / 감독되지 않는 것이 최선의 방법이라고 생각하지 않습니다. 기본 데이터 마이닝의 경우 수행하려는 작업에 대해 생각하는 것이 좋습니다. 네 가지 주요 작업이 있습니다.

  1. 예측. 실수를 예측하는 경우이를 회귀라고합니다. 정수 또는 클래스를 예측하는 경우이를 분류라고합니다.

  2. 모델링. 모델링은 예측과 동일하지만 모델은 인간이 이해할 수 있습니다. 신경망과 서포트 벡터 머신은 훌륭하게 작동하지만 이해하기 쉬운 모델을 생성하지는 않습니다 [1]. 의사 결정 트리 및 클래식 선형 회귀는 이해하기 쉬운 모델의 예입니다.

  3. 유사성. 자연스러운 속성 그룹을 찾으려고하는 경우이를 요인 분석이라고합니다. 자연스러운 관측 그룹을 찾으려면 클러스터링이라고합니다.

  4. 협회. 상관 관계와 비슷하지만 막대한 이진 데이터 집합의 경우입니다.

[1] 분명히 골드만 삭스 (Goldman Sachs)는 예측을 위해 엄청난 양의 신경망을 만들었지 만 아무도 그것을 이해하지 못했기 때문에 신경망을 설명하기 위해 다른 프로그램을 작성해야했습니다.


GS 스토리에 대한 자세한 정보를 줄 수 있습니까? (왜 내가 댓글에 직접 댓글을 달 수 없는지 잘 모르겠습니다)
YA

내가 읽은 곳을 정확히 기억할 수는 없지만 AI @ GS에 대한 추가 정보는 다음과 같습니다. hplusmagazine.com/2009/08/06/…
Neil McGuigan

나는 1,2가 감독 된 환경에서의 학습을 설명하고 3,4는 감독되지 않은 환경에 있다는 느낌을 가지고 있습니다. 또한 : 예측하기 위해 유사점을 찾으면 어떻게해야합니까? 모델링이 고려됩니까?
Mr Tsjolder
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.