P (X)의 비 -iid 샘플 및 P (Y | X)의 iid 샘플로부터 확률 구배 하강을 통해 P (Y | X) 모델을 학습 할 수 있습니까?


10

일부 데이터 세트에서 확률 적 그라디언트 디센트 (stochastic gradient descent)를 통해 파라미터 화 된 모델을 훈련 할 때 (예를 들어 가능성을 최대화하기 위해), 훈련 샘플은 훈련 데이터 분포로부터 iid로 추출되는 것으로 일반적으로 가정된다. 따라서 공동 분포 를 모델링하는 것이 목표 라면 각 분포에서 각 학습 표본 을 추출해야합니다.( x i , y i )P(X,Y)(xi,yi)

조건부 분포 를 모델링하는 것이 목표라면 iid 요구 사항은 어떻게 변하는가?P(Y|X)

  1. 관절 분포에서 각 표본 iid를 계속 그려야 합니까?(xi,yi)
  2. 우리가 그릴해야 에서 IID , 다음 그릴 에서 IID ? P ( X ) y i P ( Y | X )xiP(X)yiP(Y|X)
  3. 우리는 그릴 수 에서 IID하지 (예를 들면 상관 관계를 통해 시간), 다음 그릴 에서 IID ? P ( X ) y i P ( Y | X )xiP(X)yiP(Y|X)

확률 적 경사 하강에 대한이 세 가지 접근법의 타당성에 대해 언급 할 수 있습니까? (필요한 경우 질문을 다시 바꾸도록 도와주십시오.)

가능하면 # 3을하고 싶습니다. 내 응용 프로그램은 강화 학습에 있으며 매개 변수화 된 조건부 모델을 제어 정책으로 사용하고 있습니다. 상태의 순서는 서로 밀접하게 관련되어 있지만 조치 는 상태에 따라 조정 된 확률 적 정책에서 iid로 샘플링됩니다. 결과 샘플 (또는 이들의 하위 집합)은 정책을 훈련시키는 데 사용됩니다. 즉, 일부 환경에서 제어 정책을 오랫동안 실행하여 상태 / 조치 샘플의 데이터 세트를 수집한다고 가정하십시오. 그러면 시간이 지남에 따라 상태가 상관 되더라도 상태에 따라 조치가 독립적으로 생성됩니다. 이것은 이 백서 의 상황과 다소 유사합니다 .y i ( x i , y i )xiyi(xi,yi)

Ryabko, 2006, " 조건부 독립적 데이터에 대한 패턴 인식 "이라는 논문을 찾았습니다 . 그러나, 상황이 나는 곳, 필요한에서 반전 (라벨 / 카테고리 / 액션이)에서 IID하지 그리는 할 수 있습니다 및 (객체 / 패턴 / 상태)에서 IID 그려 . P ( Y ) x i P ( X | Y )yiP(Y)xiP(X|Y)

업데이트 : Ryabko 논문에 언급 된 두 가지 논문 ( herehere )이 여기에 관련이있는 것으로 보입니다. 그들은 가 임의의 프로세스 (예를 들어, iid가 아니거나 정지하지 않은)에서 온 것으로 가정합니다 . 이 경우 가장 가까운 이웃 및 커널 추정기가 일치 함을 보여줍니다. 그러나 확률 적 경사 하강에 기초한 추정이이 상황에서 유효한 지에 더 관심이 있습니다.xi


1
어쩌면 나는 뭔가 에서 non-iid를 그리고 에서 iid 를 샘플링하고 있습니다. Ryabko (2006)는 에서 non-iid를 그리고 에서 iid 를 샘플링 합니다. 이것들은 이름을 바꾸는 것과 같습니다. 이것을 동일한 상황이 아닌 객체 와 에 근본적으로 다른 것이 있습니까? P ( X ) y i P ( Y X ) y i P ( Y ) x i P ( X Y ) x yxiP(X)yiP(YX)yiP(Y)xiP(XY)xy
Dougal

@Dougal : 차이점은 조건부 랜덤 필드와 같은 조건부 분포 모델은 와 ( "입력"및 "출력")를 다르게 처리한다는 것입니다. 그들은 한 방향 ( 만 모델링 하지만 ). Y P ( Y | X ) P ( X | Y )XYP(Y|X)P(X|Y)
Tyler Streeter

2
이 경우 다음과 같은 비유를 고려합니다. 와 가 두 개의 상관 된 시계열 (시간의 상관) 이라고 가정 합니다. 우리는 함수 를 알아 이는 를 찾는 것과 같습니다 . 경우 , 잔류하고, 바이어스없이 다음 추정 절차 수렴 IID (따라서 고정 및 상관)을한다. 조건부 가능성이 올바르게 지정되고 잔차가 IID 인 한 기본적으로 MLE 프로 시저에서 시계열을 시간 순서 또는 임의 순서로 처리하는 것은 중요하지 않습니다. X i Y i = f ( X i ; θ ) P ( Y i | X i ; θ ) P ( Y i | X i ; θ )YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ)
Cagdas Ozgenc

답변:


1

2 또는 3을 수행 할 수 있다고 생각하지만 3의 문제는 X에 대한 임의의 분포를 허용함에있어 모든 확률 또는 거의 모든 확률이 x 공간에서 작은 간격을 갖는 분포를 포함한다는 것입니다. X의 특정 값에 대한 데이터가 거의 없거나 전혀 없기 때문에 P (Y | X)의 전체 추정치가 손상됩니다.


접근법 # 3을 사용하면 잠재적으로 높은 분산으로 편향되지 않은 결과를 얻을 수 있습니까?
Tyler Streeter

점 x 에 또는 근처에 데이터가 없으면 P (Y | X = x ) 도 추정 할 수 없으며 몇 점만 있으면 추정의 분산이 커집니다. 111
Michael R. Chernick

그렇습니다. 분산이 클 수 있습니다. 내 주요 관심사는 추정 된 P (Y | X)가 바이어스되는지 여부입니다.
Tyler Streeter

우리는 점 추정치에 대해 논의하지 않았습니다. P (X), P (Y) 및 P (X | Y)에 대한 편견 추정값이없는 경우 공식 P (Y | X) = P (X | Y) P (Y) / P (X)에 연결하십시오. 치우친 추정값을 얻게됩니다.
Michael R. Chernick

나는 확률 적 경사 하강을 통해 P (Y | X)를 추정하는 것에 대해 이야기하고 있음을 강조해야합니다.이 경우 훈련 샘플의 순서가 정확한 모델에 얼마나 빨리 또는 수렴되는지에 영향을 줄 수 있습니다. 나는 샘플의 순서가 중요하지 않은 샘플 평균을 사용하는 것이 아닙니다.
Tyler Streeter
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.