구체적으로, 각 플레이어가 액션을 갖는 2 인용 제로섬 게임을 해결하기위한 LP를 고려하십시오 . 지불 행렬 A 의 각 항목이 절대 값이 최대 1 이라고 가정 합니다. 간단하게하기 위해 희소성 가정을하지 말자.
이 게임의 가치를 추정하기 위해 런타임 를 사용할 수 있다고 가정하십시오 .
이 값을 근사하는 한 가지 기술은 곱하기 업데이트 방법입니다 (이 맥락에서 후회없는 학습이라고 함). 이 오류는 여기서수피 요소를 기록.
가장 잘 알려진 내부 포인트 방법의 오류 환경이 어떻게 보이는지 정확히 알지 못하지만 오류는 .
승수 업데이트 방법은 의 역 다항식 인 오류를 제공합니다 . 내부 포인트 방법은 에서 지수 적으로 작은 오차를 제공합니다 . 따라서 두 점 중 최고점의 오류는 내부 점이 잡힐 때까지 잠시 동안 천천히 감소하고 그 후에 오류가 갑자기 절벽에서 떨어집니다. 나의 본능은 이런 식으로 행동하는 최고의 시간 / 오류 트레이드 오프에 반대합니다.
내 질문 :
시간 / 오류 트레이드 오프 곡선의 코너를 매끄럽게하는 근사 선형 프로그래밍 알고리즘이 있습니까? 즉, 사용 가능한 시간 매개 변수의 모든 값에 대해 둘 중 가장 좋은 것뿐만 아니라 둘 중 가장 좋은 알고리즘은 비교적 매끄러운 시간 / 오류 트레이드 오프를 갖습니다. 두 가지 중 더 나은 방법을 사용하는 것보다 내부 포인트와 곱하기 업데이트 기술을 결합하는보다 지능적인 방법은 이러한 알고리즘을 얻는 방법 중 하나입니다.
참고 문헌 :
일반적으로 곱하기 업데이트 :
http://www.cs.princeton.edu/~arora/pubs/MWsurvey.pdf
제로섬 게임을위한 다중 업데이트 :
http://dx.doi.org/10.1016/0167-6377(95)00032-0
LP 커버링 / 패킹을위한 다중 업데이트 :
http://arxiv.org/PS_cache/arxiv/pdf/0801/0801.1987v1.pdf
원본 내부 포인트 용지 :
http://math.stanford.edu/~lekheng/courses/302/classics/karmarkar.pdf
적용된 수학 관점의 내부 포인트 :
Bertsekas의 비선형 프로그래밍 , 섹션 4.1.1.