의사 랜덤 시퀀스 예측


9

면책 조항 : 나는 생물 학자이므로 그러한 조잡한 용어로 표현 된 기본 질문에 대해 유감스럽게 생각합니다.

여기 또는 DS / SC에서이 질문을해야할지 확실하지 않지만 CS가 3 개 중 가장 큽니다. (내가 게시 한 후 Cross-Validated가 더 좋은 곳 일 수는 있지만 아쉽습니다.)

바이너리 결정을 내리는 에이전트가 있다고 상상해보십시오. 그리고 각 에이전트의 결정 ( "시험")에 대해 에이전트에게 보상을주는 환경. 에이전트의 결정에 대한 보상 기준은 간단하지 않습니다. 일반적으로 기준은 임의적이지만 제한이 있습니다. 예를 들어 환경은 동일한 결정에 대해 3 회 이상 보상하지 않으며 연속으로 4 회 이상 보상 된 결정을 번갈아 사용하지 않습니다.

일련의 기준은 다음과 같습니다.

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

그러나 결코

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

보상 기준이 3 회 이상 반복 될 수 없기 때문입니다.

이러한 조건에서 이상적인 관찰자가 보상을 극대화하기 위해 수행해야하는 전략을 수립하는 것은 매우 쉽습니다. 라인을 따라 뭔가

  1. 무작위로 결정하다
  2. 해당 기준이 3 번 반복되는 것을 감지하면 마지막 기준과 반대의 결정
  3. 해당 기준이 4 번 번갈아 감지되면 마지막 기준에 따라 결정하십시오.

이제 어려운 부분입니다. 이제 각 재판에 대한 기준은 이전 기준의 이력뿐만 아니라 상담원의 결정 이력에 따라 달라집니다. 예를 들어 상담원이 지난 10 번의 시험 중 8 회 이상을 번갈아 가면 지난번에 한 상담원과 동일한 결정에 보상합니다. 상담원이 교대하지 못하도록 막는 경우) 상담원이 지난 10 번의 시험 중 8 회 이상에 대해 동일한 결정을 반복 한 경우 (즉, 편향된 경우) 편견과 반대되는 기준을 설정하십시오. 의사 결정 이력보다 기준 이력의 우선 순위가 미리 지정되어 있으므로 모호성이 없습니다.

결정 순서 (d)와 기준 (c)은 이제 다음과 같습니다.

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions  

에이전트의 전략을 극대화하는 간단한 방법은 없습니다. 그러나 나는 이것이 있어야한다고 확신하며 어떤 종류의 영리한 기계 학습 알고리즘이 그것을 식별 할 수 있어야합니다.

내 질문은이 문제를 해결하는 방법에 관한 것이 아니라 (해결 방법을 제안하면 행복 할지라도) 이러한 유형의 문제는 어떻게 더 발생합니까? 어디서 읽을 수 있습니까? 추상적 솔루션이 있거나 시뮬레이션 만 도움이 될 수 있습니까? 일반적으로 생물 학자로서 어떻게 이런 유형의 문제에 접근 할 수 있습니까?


2
자동 회귀 시계열 분석을 참조하십시오 . 입력 데이터에 대해 더 자세히 설명하면 도움이 될 것입니다. 생물학에서 왔습니까? 표준 문제에 대한 표준 기술이 있습니다. 재발 성 ANN (인공 신경망)도이를 처리합니다. 또한 어쩌면 들러 컴퓨터 과학 채팅
vzn

2
숨겨진 Markov 모델은 유용한 도구 일 수 있습니다.
Raphael

1
Follow-The-Leader 및 기타 변형- 온라인
MotiN

2
나는 당신이 말하는 것이 ML의 사람들이 강화 학습 이라고 부르는 것에 가깝다고 생각합니다 .
Kaveh

1
추신 : 시간이 지나도 여기에 답이 없으면 Cross Validated에 게시 하십시오.
Kaveh

답변:


1

강화 학습을 사용하여이 문제에 접근 할 수 있습니다.

이에 대한 고전 서적은 Sutton과 Barto입니다.

두 번째 버전의 초안은 무료로 제공됩니다 : https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

문제를 Markovian으로 만들기 위해 각 상태를 마지막 10 개의 결정으로 구성된 벡터로 정의하십시오. 조치는 1 또는 0입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.