맥락 : 저는 유니 코스 통계에서 (반반 잊혀진) 경험이있는 프로그래머입니다. 최근에 나는 http://akinator.com을 우연히 발견 하고 실패하기 위해 시간을 보냈습니다. 누가 아니 었어? :)
나는 그것이 작동하는 방법을 찾기로 결정했습니다. 인터넷 검색 및 관련 블로그 게시물을 읽은 후 결과 혼합에 내 제한된 지식을 추가 한 후 다음 모델을 생각해 냈습니다 (잘못된 표기법을 사용한다고 확신합니다. 저를 죽이지 마십시오).
과목 (S)과 질문 (Q)이 있습니다. 예측 자의 목표는 지금까지 수집 된 질문과 답변을 고려하여 사용자가 생각하고있는 주제 일 가능성이 가장 큰 주제 S를 선택하는 것입니다.
게임 G를 과 같은 일련의 질문과 답변으로 지정하십시오 .
그런 다음 예측 변수는 찾습니다 .
피험자에 대한 선행 ( )은 피험자가 추측 한 횟수를 총 게임 수로 나눈 것일 수 있습니다.
모든 답변이 독립적이라는 가정을해서 게임 G가 주어지면 주제 S의 가능성을 계산할 수 있습니다.
사용 된 주제에 대해 어떤 질문과 답변을 는지 추적 하면 계산할 수 있습니다.
이제 는 주제에 대한 확률 분포를 정의하고 다음 질문을 선택해야 할 때이 분포의 엔트로피에서 예상되는 변화가 최대 인 질문을 선택해야합니다.
나는 이것을 구현하려고 노력했지만 작동합니다. 그러나, 분명히, 환자의 수는 상승으로 인해 다시 계산해야 할 필요성 성능이 저하 각 이동 후 업데이트 분포 계산 위한을 질문 선택.
나는 내가 아는 한도에 의해 제약을받는 잘못된 모델을 선택한 것 같다. 또는 수학에 오류가있을 수 있습니다. 제게 계몽하십시오 : 수백만의 주제와 수천 개의 질문에 대처할 수 있도록 예측자를 바꾸거나 어떻게 예측해야합니까?