-greedy, softmax 및 UCB1과 같은 n-armed bandit 문제를 해결하기위한 많은 알고리즘에 대해 읽었지만 후회를 최소화하는 데 가장 적합한 방법을 정렬하는 데 문제가 있습니다.
n-armed bandit 문제를 해결하기 위해 알려진 최적의 알고리즘이 있습니까? 실제로 가장 성능이 좋은 것으로 보이는 알고리즘을 선택할 수 있습니까?
아마도 위키피디아 페이지에서 그렇게 말할 것이고 실험적인 소스 포지 페이지
—
Henry
@mbq 강화 학습은 기계 학습의 한 지점이기 때문에 그렇게 생각하지 않습니다.)
—
steffen
@mbq 나는 그것을 얻지 못한다. "tscy"는 무엇을 의미합니까?
—
steffen