협동 강화 학습


10

이미 수익 극대화를 목표로 동적 가격 책정 문제를 해결하는 단일 에이전트에 대해 기능적인 구현이 있습니다. 그러나 내가 함께 일하고있는 문제는 서로를 대체하는 여러 가지 다른 제품과 관련이 있으므로 독립적 인 학습자에게 모두 동적으로 가격을 책정하는 것은 하나의 가격이 다른 사람의 보상에 영향을 미치기 때문에 올바르지 않은 것 같습니다. 목표는 각 개별 수익의 합계를 최대화하기 위해 동적으로 가격을 책정하는 것입니다.(λ)

나는 이런 식으로 강화 학습을 적용하는 것을 찾기 위해 약간의 연구를 해왔지만 협동 조합보다 경쟁 게임에 더 초점을 맞춘 많은 멀티 에이전트 구현 또는 다른 에이전트에 대한 불완전한 지식을 가정합니다 (완료했을 것입니다) 이 시나리오에서 각 에이전트에 대한 지식). 이런 식으로 협력 학습에 대한 잘 연구되고 문서화 된 응용 프로그램이 있습니까?

답변:



0

결국, 당신이 도달하려는 것은 파레토 효율성입니다.

협력하기 위해서는 모든 플레이어가 공유 하는 단일 보상 기능 을 정의해야합니다 (어떻게 든 개별 보상 기능을 결합하는 기능 일 수 있음).

어쨌든 한 제품에서 얻은 다른 보상에 대해 보상해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.