협동 강화 학습

10

이미 수익 극대화를 목표로 동적 가격 책정 문제를 해결하는 단일 에이전트에 대해 기능적인 구현이 있습니다. 그러나 내가 함께 일하고있는 문제는 서로를 대체하는 여러 가지 다른 제품과 관련이 있으므로 독립적 인 학습자에게 모두 동적으로 가격을 책정하는 것은 하나의 가격이 다른 사람의 보상에 영향을 미치기 때문에 올바르지 않은 것 같습니다. 목표는 각 개별 수익의 합계를 최대화하기 위해 동적으로 가격을 책정하는 것입니다. $Q(\lambda)$

나는 이런 식으로 강화 학습을 적용하는 것을 찾기 위해 약간의 연구를 해왔지만 협동 조합보다 경쟁 게임에 더 초점을 맞춘 많은 멀티 에이전트 구현 또는 다른 에이전트에 대한 불완전한 지식을 가정합니다 (완료했을 것입니다) 이 시나리오에서 각 에이전트에 대한 지식). 이런 식으로 협력 학습에 대한 잘 연구되고 문서화 된 응용 프로그램이 있습니까?

machine-learning reinforcement-learning

— 사용자
소스

1

이 종이를 볼 수 있습니다. 첫 번째는 귀하의 작업과 관련이 있습니다.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— 플라 야 알란 카
소스

0

결국, 당신이 도달하려는 것은 파레토 효율성입니다.

협력하기 위해서는 모든 플레이어가 공유 하는 단일 보상 기능 을 정의해야합니다 (어떻게 든 개별 보상 기능을 결합하는 기능 일 수 있음).

어쨌든 한 제품에서 얻은 다른 보상에 대해 보상해야합니다.

— 후안 레니
소스