확률 이론을 사용하여 시작한 다음 확률 이론이 지시하는 바를 가장 잘 계산하는 알고리즘을 선택합니다. 따라서 훈련 데이터 와 새로운 전구체 X 와 Y 를 분류 할 객체와 이전 정보 I가 있습니다.TXYI
에 대해 알고 싶습니다 . 그런 다음 확률 이론에 따르면 사용 가능한 모든 정보에 따라 확률을 계산하면됩니다.Y
P(Y|T,X,I)
이제 확률 이론의 규칙을 사용하여이를 계산 방법을 알고있는 것으로 조작 할 수 있습니다. 따라서 베이 즈 정리를 사용하면 다음을 얻을 수 있습니다.
P(Y|T,X,I)=P(Y|T,I)P(X|Y,T,I)P(X|T,I)
이제 는 일반적으로 쉽습니다. 사전 정보가훈련 데이터 (예 : 상관 관계)를 넘어 Y 에 대해 무언가를 말해 줄 수 없다면, 승계의 규칙에 의해 또는 기본적으로 관찰 된 몇 배의 Y 훈련 데이터 세트에서 사실이었습니다.P(Y|T,I)YY
두 번째 용어 -이것은 모델이며 대부분의 작업이 수행되는 위치와 다른 알고리즘이 다른 작업을 수행하는 위치입니다. P ( X | T , I ) 는 계산하기에 약간의 악의적 인 짐승이므로이를 피하기 위해 다음과 같은 트릭을 수행합니다.P(X|Y,T,I)P(X|T,I)YY¯¯¯¯Y
O(Y|T,X,I)=P(Y|T,X,I)P(Y¯¯¯¯|T,X,I)=P(Y|T,I)P(Y¯¯¯¯|T,I)P(X|Y,T,I)P(X|Y¯¯¯¯,T,I)
Y
P(X|Y,T,I)θY
P(X|Y,T,I)=∫P(X,θY|Y,T,I)dθ=∫P(X|θY,Y,T,I)P(θY|Y,T,I)dθY
P(X|θY,Y,T,I)=P(X|θY,Y,I)TP(θY|Y,T,I)모형의 모수에 대한 사후 분포입니다. 이것은 훈련 데이터가 결정하는 부분입니다. 그리고 이것은 아마도 대부분의 작업이 갈 곳입니다.
θYMiθ(i)Y
P(X|Y,T,I)=∑iP(Mi|Y,T,I)∫P(X|θ(i)Y,Mi,Y,T,I)P(θ(i)Y|Mi,Y,T,I)dθ(i)Y
P(Mi|Y,T,I)=P(Mi|Y,I)∫P(θ(i)Y|Mi,Y,I)P(T|θ(i)Y,Mi,Y,I)dθ(i)Y
(NOTE: Mi is a proposition of the form "the ith model is the best in the set that is being considered". and no improper priors allowed if you are integrating over models - the infinities do not cancel out in this case, and you will be left with non-sense)
Now, up to this point, all results are exact and optimal (this is the option 2 - apply some awesome algorithm to the data). But this a daunting task to undertake. In the real world, the mathematics required may be not feasible to do in practice - so you will have to compromise. you should always "have a go" at doing the exact equations, for any maths that you can simplify will save you time at the PC. However, this first step is important, because this sets "the target", and it makes it clear what is to be done. Otherwise you are left (as you seem to be) with a whole host of potential options with nothing to choose between them.
Now at this stage, we are still in "symbolic logic" world, where nothing really makes sense. So you need to link these to your specific problem:
- P(Mi|Y,I) is the prior probability for the ith model - generally will be equal for all i.
- P(θ(i)Y|Mi,Y,I) is the prior for the parameters in the ith model (must be proper!)
- P(T|θ(i)Y,Mi,Y,I) is the likelihood function for the training data, given the ith model
- P(θ(i)Y|T,Mi,Y,I) is the posterior for the parameters in the ith model, conditional on the training data.
- P(Mi|Y,T,I) is the posterior for the ith model conditional on the training data
There will be another set of equations for Y¯¯¯¯
Note that the equations will simplify enormously if a) one model is a clear winner, so that P(Mj|Y,T,I)≈1 and b) within this model, its parameters are very accurate, so the integrand resembles a delta function (and integration is very close to substitution or plug-in estimates). If both these conditions are met you have:
P(X|Y,T,I)≈P(X|θ(j)Y,Mj,Y,T,I)θ(j)Y=θ^(j)Y
Which is the "standard" approach to this kind of problem.