기계에 동기를 부여하는 것은 무엇입니까?


12

현재 AI 개발 분야에서 주요 초점은 패턴 인식 및 기계 학습에 있습니다. 학습은 피드백 루프를 기반으로 내부 변수를 조정하는 것입니다.

Maslow의 욕구 계층은 Abraham Maslow가 제안한 심리학 이론으로, 개인의 가장 기본적인 욕구가 더 높은 수준의 욕구를 달성하기 위해 동기를 부여 받기 전에 충족되어야한다고 주장합니다.

기계가 어떻게 행동하도록 동기를 부여 할 수 있습니까? 기계에 필요 계층 구조를 설명하는 일종의 DNA 유사 구조가 있어야합니까 (Maslow의 이론과 유사)? 기계의 기본 요구 사항은 무엇입니까?


1
재미있는 질문이며 AI에 오신 것을 환영합니다! (나는 게임 이론과 관련된 주제에 대해 약간의 생각을 가지고 있으며 다른 기고자들은 알고리즘과 관련하여 목표 지향 학습 에 대해 이야기했습니다 .)
DukeZhou

1
단순히 유틸리티 기능 이라고 말하면 됩니다 . 이 답변 은 도움 이 될 수 있습니다
Ugnes

답변:


5

동기 부여를 구현하는 현재 방법은 일종의 인공적인 보상입니다. 예를 들어 Deepmind의 DQN 은 게임의 점수에 의해 결정됩니다. 점수가 높을수록 좋습니다. AI는 자신의 행동을 조정하여 가장 많은 점수를 얻으므로 가장 많은 보상을 얻습니다. 이를 강화 강화 라고 합니다. 보상 은 AI가 행동에 적응하도록 말 하도록 동기를 부여 합니다.

보다 기술적 인 용어로, AI는 유틸리티 기능 을 최대화하려고합니다. 이는 유틸리티 기능 구현에 따라 다릅니다 . DQN의 경우, 이것은 게임에서 점수를 최대화합니다.

조금 더 복잡하고 종종 직진하지는 않지만 인간의 뇌는 비슷한 방식으로 기능합니다. 우리는 인간으로서 보통 도파민세로토닌을 많이 생산하기 위해 우리의 행동을 조정하려고합니다 . 이것은 강화 학습 중에 AI를 제어하는 ​​데 사용되는 보상과 비슷한 방식입니다. 인간의 뇌는 어떤 행동이 그러한 물질을 가장 많이 생산 하는지를 배우고 결과를 극대화하기위한 전략을 찾습니다. 물론 이것은이 복잡한 과정을 단순화 한 것이지만 그림을 얻을 수 있습니다.

동기 부여에 대해 이야기 할 때는 의식 이나 qualia혼동 하지 마십시오 . 그것들은 전혀 동기 부여가 필요하지 않습니다. AI에서 의식과 qualia에 대해 논의하고 싶다면 완전히 다른 볼 게임입니다.

아이는 호기심 때문에 호기심이 없습니다. 아이의 뇌의 실용 기능이 보상 신경 전달 물질을 방출함으로써 탐사에 보상하기 때문에 탐험 할 때 긍정적 인 강화를 얻는다. 따라서 메커니즘은 동일합니다. 이것을 AI에 적용한다는 것은 새로운 경험을 보상하는 유틸리티 기능을 정의하는 것을 의미합니다. 어떤 종류의 강화 보상이없는 내부 드라이브는 없습니다.


편집과 관련하여 나는 "새로운 경험을 보상하는 유틸리티 함수"의 좋은 예가 그의 깔끔한 알고리즘에 사용되도록 ken stanley가 제안한 참신한 검색 피트니스 함수라고 생각합니다.
nickw

5

이것은 실제로 흥미로운 질문입니다.

Jeff Hawkins와 Sandra Blakeslee가 쓴 "지능에 관한 책"에서 "호기심이 어디서 생겨날 수 있을까"에 대한 현실적인 아이디어가 있습니다.

그것은 그러한 진술에 근거합니다 :

  • 마음은 자신이 존재하는 세계의 모델을 만듭니다.

  • 그것은 항상 모든 것에 대해 예측합니다 (실제로 Jeff Hawkins는 이것이 지능의 주요 특징이라고 말합니다).

  • 무언가에 대한 예측이 뒤 따르고 세상의 적절한 행동이 뒤 따랐을 때,이 것은 마음에 매우 흥미로워지고 (모델이 잘못되어 수정되어야 함) 더 많은주의가 필요합니다.

예를 들어, 왼쪽 사람의 눈을 보면 뇌가 사람의 얼굴이며 오른쪽에 두 번째 눈이 있어야한다고 예측합니다. 오른쪽을보고 코를 본다! 놀랐는 걸! 이제는 모든주의를 기울이고 모델에 맞지 않는 이상한 일에 대해 더 많은 관찰을 할 동기가 있습니다.

따라서 인공 지능이 모델에 따라 특정 작업을 수행하거나 세계에 대한 예측이 사실 인 동안 무작위로 행동 할 수 있다고 말하고 싶습니다. 그러나 일단 예측이 깨지면 AI는 모델에 대한 오류 수정을 할 동기를 얻습니다.

간단한 경우에 기계는 출력으로 할 수있는 모든 작업을 수행하는 완전한 임의성에서 시작합니다. 어떤 종류의 순서 나 반복되는 패턴을 감지 할 때 모델이 없거나 임의의 모델이 없지만 "관심"이되어 모델에 추가합니다. 잠시 후 모델이 더 정교 해져 더 복잡한 예측을하고 모델에서 더 높은 수준의 실수를 탐지합니다. 천천히 모든 것을 기억하는 대신 흥미로운 것을 관찰하기 위해 무엇을해야하는지 알게됩니다.


기여해 주셔서 감사합니다! 나는 기본적으로 같은 결론에 도달했습니다 ... 지금 그것을 구현하는 방법을 생각하고 :)
Aleksei Maide

이 답변은 중요한 지적입니다. 예측 모델의 오류 수정은 지능적인 AI가 흥미로운 방식으로 배우고 행동하는 데 큰 동기를 부여합니다.
Seth Simba

3

내가 물었다 교수 리처드 서튼에게 강화 학습 과정의 첫 번째 강의에서, 비슷한 질문을. 기계에 동기를 부여하는 다른 방법이있는 것 같습니다. 사실 기계 동기는 전적으로 연구 분야처럼 보입니다.

일반적으로 기계는 우리가 목적 함수 또는 비용 함수 또는 손실 함수 라고 부르는 것에 동기를 부여 합니다 . 이들은 동일한 개념에 대해 다른 이름입니다. 때로는 다음과 같이 표시됩니다.

L(a)

minaL(a)maxaL(a)L


1

나는 게임의 맥락에서 이것에 대해 생각하면서 시간을 보냈다.

보상 기능의 문제점은 일반적으로 가중 노드를 포함한다는 점인데, 이는 유용하지만 궁극적으로 의미가 없습니다.

다음은 실질적으로 의미있는 보상입니다.

계산 자원

AI가 포인트가 아닌 프로세서 시간과 메모리를 놓고 경쟁하는 게임을 생각해보십시오.

알고리즘이 게임에서 더 잘 수행할수록 더 많은 메모리와 처리에 액세스 할 수 있습니다. 이는 실질적인 영향을 미칩니다. 오토마타에 사용할 수있는 리소스가 많을수록 그 기능이 강해집니다. (즉, 합리성은 결정을 내리기위한 시간과 공간 측면에서 덜 제한적 이다.) 따라서 알고리즘은 그러한 경쟁에 우세하도록 "동기 부여"될 것이다.

에너지

"자기 인식"정도가 충분한 모든 오토마타 (여기서는 처리에 에너지가 필요하다는 지식을 언급 함)는 불필요한 비트 뒤집기 (불필요한 에너지 소비)를 제거하기 위해 자체 코드를 자체 최적화하는 동기를 갖게됩니다.

또한 이러한 알고리즘은 전원 공급을 보장하여 계속 작동 할 수 있도록 동기를 부여합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.