저는 현재 기계 학습에 대해 읽고 있으며 Connect Four 재생에 적용하는 방법에 대해 궁금했습니다 .
현재 시도중인 것은 시그 모이 드 함수 모델과 일대일 방법을 사용하는 간단한 다중 클래스 분류기입니다.
필자의 의견으로는 입력 기능은 7x6 = 42 그리드 필드의 상태 (플레이어 1 디스크, 플레이어 2 디스크, 비어 있음) 여야합니다.
출력은 디스크를 넣을 행 번호입니다. 그것은 1과 7 사이의 이산 숫자이기 때문에 이것이 다중 클래스 분류 문제로 취급 될 수 있다고 생각합니다.
그러나지도 학습에 사용할 수있는 교육 예제를 어떻게 생성합니까?
주요 목표는 게임에서이기는 것이지만, 마지막 턴을 할 때마다 결과를 알 수는 없습니다. 무작위로 서로에게 어떻게해야할지 결정하는 두 명의 플레이어에게 수천 번의 경기를한다면, 각 게임 라운드의 승자가 만든 모든 턴을 훈련 예로 들으면 충분할까요? 아니면 완전히 다른 방식으로이 작업을 수행해야합니까?
편집 : 의견에서 제안한 것처럼 강화 학습에 대해 조금 읽었습니다. 내가 아는 것에서 Q-Learning은 트릭을 수행해야합니다. 즉, 현재 상태의 함수 Q와 그 상태에서 시작하는 최대 누적 보상이되기 위해 취해야 할 조치를 근사해야합니다. 그런 다음 각 단계는 최대 Q 값을 초래하는 동작을 선택하는 것입니다. 그러나이 게임에는이를 수행하기에는 너무 많은 상태가 있습니다 (예 : 조회 테이블). 그렇다면이 Q-Function을 모델링하는 효과적인 방법은 무엇입니까?