동기 부여를 구현하는 현재 방법은 일종의 인공적인 보상입니다. 예를 들어 Deepmind의 DQN 은 게임의 점수에 의해 결정됩니다. 점수가 높을수록 좋습니다. AI는 자신의 행동을 조정하여 가장 많은 점수를 얻으므로 가장 많은 보상을 얻습니다. 이를 강화 강화 라고 합니다. 보상 은 AI가 행동에 적응하도록 말 하도록 동기를 부여 합니다.
보다 기술적 인 용어로, AI는 유틸리티 기능 을 최대화하려고합니다. 이는 유틸리티 기능 구현에 따라 다릅니다 . DQN의 경우, 이것은 게임에서 점수를 최대화합니다.
조금 더 복잡하고 종종 직진하지는 않지만 인간의 뇌는 비슷한 방식으로 기능합니다. 우리는 인간으로서 보통 도파민 과 세로토닌을 많이 생산하기 위해 우리의 행동을 조정하려고합니다 . 이것은 강화 학습 중에 AI를 제어하는 데 사용되는 보상과 비슷한 방식입니다. 인간의 뇌는 어떤 행동이 그러한 물질을 가장 많이 생산 하는지를 배우고 결과를 극대화하기위한 전략을 찾습니다. 물론 이것은이 복잡한 과정을 단순화 한 것이지만 그림을 얻을 수 있습니다.
동기 부여에 대해 이야기 할 때는 의식 이나 qualia 와 혼동 하지 마십시오 . 그것들은 전혀 동기 부여가 필요하지 않습니다. AI에서 의식과 qualia에 대해 논의하고 싶다면 완전히 다른 볼 게임입니다.
아이는 호기심 때문에 호기심이 없습니다. 아이의 뇌의 실용 기능이 보상 신경 전달 물질을 방출함으로써 탐사에 보상하기 때문에 탐험 할 때 긍정적 인 강화를 얻는다. 따라서 메커니즘은 동일합니다. 이것을 AI에 적용한다는 것은 새로운 경험을 보상하는 유틸리티 기능을 정의하는 것을 의미합니다. 어떤 종류의 강화 보상이없는 내부 드라이브는 없습니다.