면책 조항 : 나는 생물 학자이므로 그러한 조잡한 용어로 표현 된 기본 질문에 대해 유감스럽게 생각합니다.
여기 또는 DS / SC에서이 질문을해야할지 확실하지 않지만 CS가 3 개 중 가장 큽니다. (내가 게시 한 후 Cross-Validated가 더 좋은 곳 일 수는 있지만 아쉽습니다.)
바이너리 결정을 내리는 에이전트가 있다고 상상해보십시오. 그리고 각 에이전트의 결정 ( "시험")에 대해 에이전트에게 보상을주는 환경. 에이전트의 결정에 대한 보상 기준은 간단하지 않습니다. 일반적으로 기준은 임의적이지만 제한이 있습니다. 예를 들어 환경은 동일한 결정에 대해 3 회 이상 보상하지 않으며 연속으로 4 회 이상 보상 된 결정을 번갈아 사용하지 않습니다.
일련의 기준은 다음과 같습니다.
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
그러나 결코
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
보상 기준이 3 회 이상 반복 될 수 없기 때문입니다.
이러한 조건에서 이상적인 관찰자가 보상을 극대화하기 위해 수행해야하는 전략을 수립하는 것은 매우 쉽습니다. 라인을 따라 뭔가
- 무작위로 결정하다
- 해당 기준이 3 번 반복되는 것을 감지하면 마지막 기준과 반대의 결정
- 해당 기준이 4 번 번갈아 감지되면 마지막 기준에 따라 결정하십시오.
이제 어려운 부분입니다. 이제 각 재판에 대한 기준은 이전 기준의 이력뿐만 아니라 상담원의 결정 이력에 따라 달라집니다. 예를 들어 상담원이 지난 10 번의 시험 중 8 회 이상을 번갈아 가면 지난번에 한 상담원과 동일한 결정에 보상합니다. 상담원이 교대하지 못하도록 막는 경우) 상담원이 지난 10 번의 시험 중 8 회 이상에 대해 동일한 결정을 반복 한 경우 (즉, 편향된 경우) 편견과 반대되는 기준을 설정하십시오. 의사 결정 이력보다 기준 이력의 우선 순위가 미리 지정되어 있으므로 모호성이 없습니다.
결정 순서 (d)와 기준 (c)은 이제 다음과 같습니다.
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
에이전트의 전략을 극대화하는 간단한 방법은 없습니다. 그러나 나는 이것이 있어야한다고 확신하며 어떤 종류의 영리한 기계 학습 알고리즘이 그것을 식별 할 수 있어야합니다.
내 질문은이 문제를 해결하는 방법에 관한 것이 아니라 (해결 방법을 제안하면 행복 할지라도) 이러한 유형의 문제는 어떻게 더 발생합니까? 어디서 읽을 수 있습니까? 추상적 솔루션이 있거나 시뮬레이션 만 도움이 될 수 있습니까? 일반적으로 생물 학자로서 어떻게 이런 유형의 문제에 접근 할 수 있습니까?