이미 수익 극대화를 목표로 동적 가격 책정 문제를 해결하는 단일 에이전트에 대해 기능적인 구현이 있습니다. 그러나 내가 함께 일하고있는 문제는 서로를 대체하는 여러 가지 다른 제품과 관련이 있으므로 독립적 인 학습자에게 모두 동적으로 가격을 책정하는 것은 하나의 가격이 다른 사람의 보상에 영향을 미치기 때문에 올바르지 않은 것 같습니다. 목표는 각 개별 수익의 합계를 최대화하기 위해 동적으로 가격을 책정하는 것입니다.
나는 이런 식으로 강화 학습을 적용하는 것을 찾기 위해 약간의 연구를 해왔지만 협동 조합보다 경쟁 게임에 더 초점을 맞춘 많은 멀티 에이전트 구현 또는 다른 에이전트에 대한 불완전한 지식을 가정합니다 (완료했을 것입니다) 이 시나리오에서 각 에이전트에 대한 지식). 이런 식으로 협력 학습에 대한 잘 연구되고 문서화 된 응용 프로그램이 있습니까?