지도 학습, 비지도 학습 및 강화 학습 : 워크 플로 기본 사항


30

지도 학습

  • 1) 인간은 입력출력 데이터를 기반으로 분류기를 작성합니다.
  • 2) 해당 분류기는 훈련 데이터 세트로 훈련됩니다.
  • 3) 해당 분류기는 테스트 데이터 세트로 테스트됩니다.
  • 4) 출력 이 만족스러운 경우 배포

"이 데이터를 분류하는 방법을 알고 있습니다. 분류 도구를 사용하려면 정렬해야합니다."

방법의 포인트 : 레이블을 분류하거나 실수를 생성하는 방법

비지도 학습

  • 1) 인간은 입력 데이터를 기반으로 알고리즘을 구축
  • 2) 해당 알고리즘은 테스트 데이터 세트로 테스트됩니다 (알고리즘이 분류자를 작성 함).
  • 3) 분류 기가 만족스러운 경우 배포

"이 데이터를 분류하는 방법을 모르겠습니다. 알고리즘이 나를 위해 분류자를 만들 수 있습니까?"

방법의 포인트 : 클래스 레이블 또는 예측 (PDF)

강화 학습

  • 1) 인간은 입력 데이터를 기반으로 알고리즘을 구축
  • 2) 해당 알고리즘 은 사용자 가 알고리즘이 취한 조치 를 통해 알고리즘을 보상하거나 처벌하는 입력 데이터에 의존 하는 상태를 나타냅니다.
  • 3) 그 알고리즘은 보상 / 처벌에서 배우고 자체적으로 업데이트됩니다.
  • 4) 항상 생산 중이며 국가의 조치를 제시 할 수 있도록 실제 데이터를 배워야합니다.

"이 데이터를 분류하는 방법을 모르겠습니다.이 데이터를 분류 할 수 있습니까? 만약 그것이 정확하다면 보상을 드릴 것입니다. 그렇지 않다면 당신을 처벌 할 것입니다."

이러한 관행의 흐름의 종류인가, 나는 그들이하는 일에 대해 많이 듣고 있지만, 실제예시적인 정보는 섬뜩 작은!


귀하의 질문을 제시 한 방식이 정말 마음에 들었습니다. 이 답변이 도움이 되었다는
Ashesh Kumar Singh

답변:


3

이것은 기본 아이디어에 대한 아주 컴팩트 한 소개입니다!

강화 학습

강화 학습에 대한 유스 케이스 설명이 정확하지 않다고 생각합니다. 분류 라는 용어 는 적합하지 않습니다. 더 나은 설명은 다음과 같습니다.

나는 이 환경 에서 어떻게 행동 해야하는지 잘 모르겠습니다 . 좋은 행동 을 찾을 수 있을뿐만 아니라 피드백을 드릴 것 입니다.

다시 말해, 목표는 무언가를 잘 분류하는 것 보다 무언가를 잘 통제 하는 것입니다.

입력

  • 에 의해 정의되는 환경
    • 가능한 모든 상태
    • 주에서 가능한 행동
  • 보상 기능 상태 및 / 또는 행동에 따라

연산

  • 에이전트
    • A의 인 상태
    • 다른 상태로 옮기기 위한 조치 를 취함
    • 주의 행동에 대한 보상 을 받는다

산출

  • 상담원이 보상을 극대화 하는 최적의 정책 을 찾으려고합니다.

2

면책 조항 : 나는 전문가가 아니며 강화 학습으로 아직 아무것도하지 않았으므로 모든 의견을 환영합니다 ...

다음은 목록에 작은 수학적 메모를 추가하고 사용시기에 대한 몇 가지 다른 생각을 추가하는 답변입니다. 열거 형이 충분히 설명되기를 바랍니다.

감독

  1. 데이터={(엑스0,와이0),(엑스1,와이1),,(엑스,와이)}
  2. 우리는 모델을 찾아 이 최소화 일부 손실 / 비용 측정 모든 지점에 대한(와이나는,(엑스나는))0나는<
  3. 모델이 얼마나 잘 일반화되는지 이해하기 위해 나머지 데이터 ( )에 대한 손실 / 비용 을 계산하여 모델을 평가합니다.나는

예제를 제공 할 수 있지만 입력에서 출력으로 가져 오는 알고리즘은 제공 할 수 없습니다.

분류 및 회귀 설정

감독되지 않은

  1. 데이터={엑스0,엑스1,,엑스}
  2. 데이터에 대한 통찰력을 제공 하는 모델 를 찾습니다 .
  3. 우리는 우리가 뭔가 유용한 / 흥미로운 일을했는지 ​​말할 방법이 거의 없다

우리는 약간의 데이터를 가지고 있지만 유용하고 흥미로운 것을 어디에서 찾아야할지 전혀 모른다

군집화, 차원 축소, 숨겨진 요인 찾기, 생성 모델 등 설정

보강

  1. 데이터가 없습니다
  2. 보상 측정 을 최대화하기 위해 측정 및 / 또는 이전 작업을 기반으로 할 수있는 데이터 (종종 액션이라고 함) 을 생성 하는 모델 를 생성합니다 . 일반적으로 모델에 알려지지 않았습니다 (배워야합니다).엑스나는아르 자형(엑스나는)
  3. 우리는 보상 기능을 배우는 데 시간이 걸린 후에 평가합니다.

우리는 무언가를하는 방법을 모른다. 그러나 그것이 옳은지 아닌지를 말할 수있다

이는 순차적 결정 작업에 특히 유용합니다.

참고 문헌 :
Si, J., Barto, A., Powell, W. and Wunsch, D. (2004) 강화 학습 및지도 학습과의 관계, 학습 및 대략적인 동적 프로그래밍 핸드북, John Wiley & Sons, Inc., 미국 뉴저지 호보 켄. 도 : 10.1002 / 9780470544785.ch2

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.