답변:
나는 화자가 무엇을 받고 있는지 알고 있다고 생각합니다. 개인적으로 나는 그 / 그녀의 의견에 완전히 동의하지 않으며, 그렇지 않은 사람들이 많이 있습니다. 그러나 공평하게 말하면 많은 사람들이 있습니다 :) 무엇보다도 공분산 함수 (커널)를 지정하면 함수에 대한 사전 분포를 지정한다는 것을 의미합니다. 커널을 바꾸는 것만으로 Gaussian Process의 실현은 Squared Exponential 커널에 의해 생성 된 매우 부드럽고 무한한 차별화 기능에서 크게 변합니다.
은 "뾰족한"로, 지수 커널에 대응 nondifferentiable 함수 (또는 Matern 커널 )
그것을 보는 또 다른 방법 은 가장 단순한 제로 평균 함수의 경우 테스트 포인트 예측 평균 (훈련 포인트에서 GP를 조정하여 얻은 가우스 프로세스 예측의 평균)을 작성하는 것입니다.
여기서 는 테스트 포인트 와 학습 포인트 사이의 공분산 벡터이며 , 는 훈련 포인트의 공분산 매트릭스이며 는 노이즈 항입니다 (단지 설정) 강의에서 소음이없는 예측 (가우시안 프로세스 보간)과 관련이 있고 이 훈련 세트의 관측 값 벡터 인 경우 입니다. 보시다시피, GP의 사전 평균이 0이더라도 예측 평균은 전혀 0이 아니며 커널과 교육 포인트 수에 따라 매우 유연한 모델이 될 수 있으며 극도로 학습 할 수 있습니다 복잡한 패턴.x ∗ x 1 ,…, x n Kσσ=0 y =( y 1 ,…, y n )
보다 일반적으로 GP의 일반화 속성을 정의하는 것은 커널입니다. 일부 커널은 범용 근사 특성 을가집니다. 즉, 충분한 훈련 지점이 주어지면 원칙적으로 소형 서브 세트의 연속 기능을 미리 지정된 최대 허용 오차까지 근사 할 수 있습니다.
그렇다면 왜 평균 기능에 관심을 가져야합니까? 우선, 단순 평균 함수 (선형 또는 직교 다항식)는 모형을 훨씬 더 해석하기 쉽게 만들어 주며, GP와 같이 유연한 (따라서 복잡한) 모형에 대해 이러한 이점을 과소 평가해서는 안됩니다. 둘째, 어떤 식 으로든 제로 평균 (또는 가치가있는 것의 경우 일정한 평균) GP 종류는 훈련 데이터에서 멀리 떨어진 예측에서 빨려 들어갑니다. 많은 정기 커널 (정기 커널 제외)은 대해 입니다.거리 ( x i , x ∗ ) → ∞ y ∗ ≈ 0. 0에 대한 이러한 수렴은 놀랍게도 신속하게, 특히 제곱 지수 커널을 사용하여, 특히 훈련 세트에 적합하도록 짧은 상관 길이가 필요할 때 발생할 수 있습니다. 따라서 평균이 0 인 GP 는 훈련 세트에서 벗어나 자마자 rox0을 항상 예측 합니다.
이제 이것은 응용 프로그램에서 의미가있을 수 있습니다. 결국 데이터 구동 모델을 사용하여 모델 학습에 사용되는 일련의 데이터 포인트로부터 예측을 수행하는 것은 좋지 않은 생각입니다. 이것이 왜 나쁜 생각이 될 수 있는지에 대한 흥미롭고 재미있는 많은 예를 보려면 여기 를 참조 하십시오 . 이와 관련하여 훈련 세트에서 항상 0으로 수렴하는 제로 평균 GP는 모델 (예 : 높은 다변량 직교 다항식 모델)보다 안전합니다. 훈련 데이터에서 벗어날 수 있습니다.
그러나 다른 경우에는 모델이 특정 무증상 행동을 갖기를 원할 수 있습니다. 이는 일정한 수렴이 아닙니다. 물리적으로 고려하면 크기가 충분히 크면 모형이 선형이되어야합니다. 이 경우 선형 평균 함수가 필요합니다. 일반적으로 모델의 전역 속성이 해당 응용 분야에 유용한 경우 평균 함수의 선택에주의해야합니다. 모델의 로컬 (훈련 포인트에 가까운) 동작에만 관심이있는 경우 0 또는 상수 평균 GP가 충분할 수 있습니다.
우리는 강의를 한 사람을 대신하여 말할 수 없습니다. 화자가 그 말을 할 때 화자는 다른 생각을 가지고 있었을 것입니다. 그러나 GP에서 사후 예측을 구성하려는 경우 상수 평균 함수에는 정확하게 계산할 수있는 닫힌 형태의 솔루션이 있습니다. 그러나보다 일반적인 평균 함수의 경우 시뮬레이션과 같은 대략적인 방법을 사용해야합니다.
또한 공분산 함수는 평균 함수에서 얼마나 빨리 (및 어디서) 편차가 발생 하는지를 제어하므로보다 유연한 / 견고한 공분산 함수가 더 화려한 평균 함수를 근사화하기에 "충분히 좋은"경우가 종종 있습니다. 상수 평균 함수의 편의 속성에 액세스합니다.
화자가 의도하지 않은 설명을 드리겠습니다. 어떤 응용에서는 수단이 항상 지루합니다. 예를 들어 자동 회귀 모델 매출을 예측한다고 가정 해 보겠습니다 . 장기 평균은 분명히 입니다. 재미 있나요? E [ y t ] ≡ μ = c
그것은 당신의 목표에 달려 있습니다. 상점 평가 후에는 값이 다음과 같이 주어지기 때문에 상점의 가치를 높이기 위해 를 늘리 거나 를 줄여야 함을 알려줍니다 . 여기서 은 할인 요소. 따라서 평균은 분명히 흥미 롭습니다.γ V = μ r
유동성에 관심이있는 경우, 즉 몇 개월 안에 비용을 충당하기에 충분한 현금이 있다면 평균은 거의 관련이 없습니다. 다음 달의 현금 예측을보고 계실 것입니다 : 이번 달의 판매 은 이제 한 가지 요인입니다.y 0
좋은 이유 중 하나는 평균 함수가 모델링하려는 함수 영역에 존재하지 않을 수 있기 때문입니다. 각 입력 점 는 대응하는 사후 평균 가질 수 있습니다 . 그러나 이러한 사후 평균점은 다른 데이터를보기 전에 예상되는 것입니다. 따라서 미래 데이터가 관찰되는 상황이 그 평균 기능을 생성하지 않는 경우가 많습니다.
간단한 예 : 오프셋은 알 수 없지만주기와 진폭은 1 인 사인 함수를 피팅한다고 상상해보십시오. 이전의 평균은 모든 대해 0 이지만 우리가 설명한 사인 함수의 공간에는 일정한 선이 없습니다. 공분산 함수는 추가 구조 정보를 제공합니다.
간단히 말해서, 평균 함수는 관측에서 '멀리 떨어진'입력에 대한 공분산 함수를 지배합니다.
사전 지식을 시스템의 매크로 역학에 주입하는 방법입니다.