다음 상황을 생각해 봅시다.
- 탁구를 치는 로봇을 가르치고 있습니다
- 당신은 제곱근을 계산하는 프로그램을 가르치고 있습니다
- 당신은 학교에서 아이에게 수학을 가르치고 있습니다
이러한 상황 (예 :지도 학습)과 다른 많은 상황에는 공통점이 있습니다. 학습자는 성과에 따라 보상을받습니다.
내 질문은, 보상 기능은 어떻게 보입니까? "최상의"답변이 있습니까, 아니면 상황에 따라 달라 집니까? 상황에 따라 결정되는 경우 어떤 보상 기능을 선택해야합니까?
예를 들어 다음 세 가지 보상 기능을 수행하십시오.
- 함수
A
은 말한다 :- 특정 지점 이하에서 나쁘거나 나쁜 것은 동일합니다.
- 거의 선과 완벽 사이에는 분명한 차이가 있습니다
- 함수
B
은 말한다 :- 성과에 비례하여 보상을받습니다
- 함수
C
은 말한다 :- 당신의 성과가 나쁘면 괜찮습니다. 최선을 다했습니다. 여전히 보상이 있습니다
- 완벽한 것과 거의 좋은 것에는 큰 차이가 없습니다.
직관적으로, 나는 A
로봇을 매우 집중시키고 정확한 패턴을 배우게 될 것이라고 생각 하지만 비슷한 패턴을 다룰 때 바보가됩니다.C
완벽을 잃는 비용으로 변화에 더 적응할 수 있다고 생각합니다.
또한 몇 가지를 보여주기 위해 더 복잡한 기능을 생각할 수도 있습니다.
그렇다면 어떤 기능을 선택해야하는지 어떻게 알 수 있습니까? 그것은 기본에서 (적어도) 나올 것이다 행동 알려져 A
, B
및 C
기능?
부수적 인 질문은 이것이 로봇과 인간 아이들에게 근본적으로 다르다는 것입니까?
A
했기 때문에 로봇은 정확한 작업을 매우 잘 수행 할 수 있지만 비슷하지만 약간 다른 작업에서는 끔찍할 수 있습니다. 그래도 내 추측 일뿐입니다.
X
이 나에게 최고의 결과를 주었다 "고 말하는 대답은 완벽하지는 않더라도 큰 경험을하게 될 것입니다.