다음은 여름에 진행 한 온라인 학습 / 적기 문제의 추상화입니다. 나는 전에 이와 같은 문제를 보지 못했고 꽤 흥미로워 보인다. 관련 작업에 대해 알고 있다면 참조 해 주셔서 감사합니다. 문제 설정은 다중 무기 적기의 설정입니다. 당신은 N 개의 무기를 가지고 있습니다. 각 팔 i는 보상을 통해 알 수는 없지만 고정 …
구체적으로, 각 플레이어가 액션을 갖는 2 인용 제로섬 게임을 해결하기위한 LP를 고려하십시오 . 지불 행렬 A 의 각 항목이 절대 값이 최대 1 이라고 가정 합니다. 간단하게하기 위해 희소성 가정을하지 말자.엔엔nㅏㅏA 이 게임의 가치를 추정하기 위해 런타임 를 사용할 수 있다고 가정하십시오 .티티T 이 값을 근사하는 한 가지 기술은 곱하기 …
Zinkevich의 "온라인 볼록 최적화"( http://www.cs.cmu.edu/~maz/publications/ICML03.pdf )는 선형 설정에서 볼록 설정까지 "후회 최소화"학습 알고리즘을 일반화하고 "외부 후회"를 제공합니다. . 내부 후회에 대해 비슷한 일반화가 있습니까? (나는 그것이 정확히 무엇을 의미하는지조차 확실하지 않습니다.)
나는 상관 상관 평형 (무-외부 역학의 한계 세트)과 상관 관계 평형 (무한-후회 역학의 제한 세트)에 대한 무정부 상태의 가격을 상관 관계 평형 (제한) 스왑 후회 역학 세트). 이 유형의 자연 분리가 알려져 있습니까? 이 두 클래스를 분리하는 데 대한 한 가지 장애물은 무정부 상태의 가격을 증명하는 가장 자연스럽고 일반적인 방법은 …
특히, 운영 중에 각자의 신념 네트워크 (또는 이와 동등한)를 업데이트 할 수있는 기계 학습 시스템에 대해 배울 수있는 자료를 요청합니다. 나는 그것들을 북마크에 넣지 못했지만 몇 개를 뛰어 넘었습니다. 상상할 수 있듯이 인터넷에서 검색하는 것은 다소 어려운 주제입니다.