문맥 적 문제 를 해결하기 위해 vowpal Wabbit 을 사용 하고 있습니다 . 사용자에게 광고를 게재하고 있으며 광고가 게재되는 상황 (예 : 사용자가 누구인지, 어떤 사이트에 있는지 등)에 대한 정보가 상당히 있습니다. 이것은 John Langford에 의해 설명 된 것처럼 매우 고전적인 맥락 적 산적 문제인 것 같습니다 .
내 상황에서 사용자가 광고에 대해 가질 수있는 두 가지 주요 응답 : 클릭 (아마도 여러 번) 또는 클릭하지 않음 선택할 수있는 약 1,000 개의 광고가 있습니다. Vowpal Wabbit에는 action:cost:probability
각 컨텍스트 형식의 대상 변수가 필요합니다 . 내 경우, action
그리고 probability
쉽게 알아낼 수 있습니다 것은 : action
내가 디스플레이에 선택한 광고이며, probability
광고를 게재에 대한 내 현재 정책 주어진 광고를 선택의 가능성이다.
그러나 지불액 (클릭 수)을 비용에 매핑하는 좋은 방법을 찾는 데 어려움을 겪고 있습니다. 클릭은 분명히 좋으며 같은 광고를 여러 번 클릭하는 것이 같은 광고를 한 번 클릭하는 것보다 낫습니다. 그러나 광고를 클릭하지 않는 것은 중립입니다. 실제로 클릭에 대한 기회를 놓친 것 이외의 비용은 들지 않습니다 (이상한 광고 환경에서 작업 중).
내가 가진 몇 가지 아이디어는 다음과 같습니다.
- 비용 = -1 * 부호 (클릭 수) + 0 * (클릭하지 않음)
- 비용 = -1 * 클릭 수 + 0 * (클릭하지 않음)
- 비용 = -1 * 부호 (클릭 수) + 0.01 * (클릭하지 않음)
- 비용 = -1 * 클릭 수 + 0.01 * (클릭하지 않음)
(0, 1, 5, 0)
이 4 가지 기능의 비용 에 따른 행동 벡터의 경우 :
(0, -1, -1, 0)
(0, -1, -5, 0)
(0.01, -1, -1, 0.01)
(0.01, -1, -5, 0.01)
그것을 표현하는 다른 많은 방법들이 분명히 있으며 clicks=good
, no clicks=bad.
일반적으로 맹세의 보빗에서 상황 적 산적 문제에 대한 비용을 어떻게 모델링해야합니까? 혜택을 마이너스 비용으로 나타내는 것이 좋습니까, 아니면 모든 비용이 긍정적이되도록 모든 것을 재조정해야합니까? 상대적으로 중립적 인 행동이 비용이 전혀 들지 않는 것이 좋습니까, 아니면 긍정적 행동으로 모델을 밀어 붙이는 데 약간의 긍정적 인 비용을 주어야합니까?