일부 데이터 세트에서 확률 적 그라디언트 디센트 (stochastic gradient descent)를 통해 파라미터 화 된 모델을 훈련 할 때 (예를 들어 가능성을 최대화하기 위해), 훈련 샘플은 훈련 데이터 분포로부터 iid로 추출되는 것으로 일반적으로 가정된다. 따라서 공동 분포 를 모델링하는 것이 목표 라면 각 분포에서 각 학습 표본 을 추출해야합니다.( x i , y i )
조건부 분포 를 모델링하는 것이 목표라면 iid 요구 사항은 어떻게 변하는가?
- 관절 분포에서 각 표본 iid를 계속 그려야 합니까?
- 우리가 그릴해야 에서 IID , 다음 그릴 에서 IID ? P ( X ) y i P ( Y | X )
- 우리는 그릴 수 에서 IID하지 (예를 들면 상관 관계를 통해 시간), 다음 그릴 에서 IID ? P ( X ) y i P ( Y | X )
확률 적 경사 하강에 대한이 세 가지 접근법의 타당성에 대해 언급 할 수 있습니까? (필요한 경우 질문을 다시 바꾸도록 도와주십시오.)
가능하면 # 3을하고 싶습니다. 내 응용 프로그램은 강화 학습에 있으며 매개 변수화 된 조건부 모델을 제어 정책으로 사용하고 있습니다. 상태의 순서는 서로 밀접하게 관련되어 있지만 조치 는 상태에 따라 조정 된 확률 적 정책에서 iid로 샘플링됩니다. 결과 샘플 (또는 이들의 하위 집합)은 정책을 훈련시키는 데 사용됩니다. 즉, 일부 환경에서 제어 정책을 오랫동안 실행하여 상태 / 조치 샘플의 데이터 세트를 수집한다고 가정하십시오. 그러면 시간이 지남에 따라 상태가 상관 되더라도 상태에 따라 조치가 독립적으로 생성됩니다. 이것은 이 백서 의 상황과 다소 유사합니다 .y i ( x i , y i )
Ryabko, 2006, " 조건부 독립적 데이터에 대한 패턴 인식 "이라는 논문을 찾았습니다 . 그러나, 상황이 나는 곳, 필요한에서 반전 (라벨 / 카테고리 / 액션이)에서 IID하지 그리는 할 수 있습니다 및 (객체 / 패턴 / 상태)에서 IID 그려 . P ( Y ) x i P ( X | Y )
업데이트 : Ryabko 논문에 언급 된 두 가지 논문 ( here 및 here )이 여기에 관련이있는 것으로 보입니다. 그들은 가 임의의 프로세스 (예를 들어, iid가 아니거나 정지하지 않은)에서 온 것으로 가정합니다 . 이 경우 가장 가까운 이웃 및 커널 추정기가 일치 함을 보여줍니다. 그러나 확률 적 경사 하강에 기초한 추정이이 상황에서 유효한 지에 더 관심이 있습니다.