가우스 프로세스의 평균 함수가 왜 흥미롭지 않습니까?


28

나는 GP에 대해 읽기 시작했고 일반 가우스 분포와 유사하며 평균 함수와 공분산 함수 또는 커널로 특징 지어집니다. 나는 연설을했고 화자는 평균 함수가 일반적으로 매우 흥미롭지 않으며 모든 추론 노력이 올바른 공분산 함수를 추정하는 데 소비된다고 말했다.

누군가 왜 그런지 설명해 줄 수 있습니까?

답변:


33

나는 화자가 무엇을 받고 있는지 알고 있다고 생각합니다. 개인적으로 나는 그 / 그녀의 의견에 완전히 동의하지 않으며, 그렇지 않은 사람들이 많이 있습니다. 그러나 공평하게 말하면 많은 사람들이 있습니다 :) 무엇보다도 공분산 함수 (커널)를 지정하면 함수에 대한 사전 분포를 지정한다는 것을 의미합니다. 커널을 바꾸는 것만으로 Gaussian Process의 실현은 Squared Exponential 커널에 의해 생성 된 매우 부드럽고 무한한 차별화 기능에서 크게 변합니다.

여기에 이미지 설명을 입력하십시오

은 "뾰족한"로, 지수 커널에 대응 nondifferentiable 함수 (또는 Matern 커널 )ν=1/2

여기에 이미지 설명을 입력하십시오

그것을 보는 또 다른 방법 은 가장 단순한 제로 평균 함수의 경우 테스트 포인트 예측 평균 (훈련 포인트에서 GP를 조정하여 얻은 가우스 프로세스 예측의 평균)을 작성하는 것입니다.엑스

와이=케이(케이+σ2나는)1와이

여기서 는 테스트 포인트 와 학습 포인트 사이의 공분산 벡터이며 , 는 훈련 포인트의 공분산 매트릭스이며 는 노이즈 항입니다 (단지 설정) 강의에서 소음이없는 예측 (가우시안 프로세스 보간)과 관련이 있고 이 훈련 세트의 관측 값 벡터 인 경우 입니다. 보시다시피, GP의 사전 평균이 0이더라도 예측 평균은 전혀 0이 아니며 커널과 교육 포인트 수에 따라 매우 유연한 모델이 될 수 있으며 극도로 학습 할 수 있습니다 복잡한 패턴.x x 1 ,, x n Kσσ=0 y =( y 1 ,, y n )케이엑스엑스1,,엑스케이σσ=0와이=(와이1,,와이)

보다 일반적으로 GP의 일반화 속성을 정의하는 것은 커널입니다. 일부 커널은 범용 근사 특성 을가집니다. 즉, 충분한 훈련 지점이 주어지면 원칙적으로 소형 서브 세트의 연속 기능을 미리 지정된 최대 허용 오차까지 근사 할 수 있습니다.

그렇다면 왜 평균 기능에 관심을 가져야합니까? 우선, 단순 평균 함수 (선형 또는 직교 다항식)는 모형을 훨씬 더 해석하기 쉽게 만들어 주며, GP와 같이 유연한 (따라서 복잡한) 모형에 대해 이러한 이점을 과소 평가해서는 안됩니다. 둘째, 어떤 식 으로든 제로 평균 (또는 가치가있는 것의 경우 일정한 평균) GP 종류는 훈련 데이터에서 멀리 떨어진 예측에서 빨려 들어갑니다. 많은 정기 커널 (정기 커널 제외)은 대해 입니다.거리 ( x i , x ) y 0케이(엑스나는엑스)0거리(엑스나는,엑스). 0에 대한 이러한 수렴은 놀랍게도 신속하게, 특히 제곱 지수 커널을 사용하여, 특히 훈련 세트에 적합하도록 짧은 상관 길이가 필요할 때 발생할 수 있습니다. 따라서 평균이 0 인 GP 는 훈련 세트에서 벗어나 자마자 rox0을 항상 예측 합니다.와이0

이제 이것은 응용 프로그램에서 의미가있을 수 있습니다. 결국 데이터 구동 모델을 사용하여 모델 학습에 사용되는 일련의 데이터 포인트로부터 예측을 수행하는 것은 좋지 않은 생각입니다. 이것이 왜 나쁜 생각이 될 수 있는지에 대한 흥미롭고 재미있는 많은 예를 보려면 여기 를 참조 하십시오 . 이와 관련하여 훈련 세트에서 항상 0으로 수렴하는 제로 평균 GP는 모델 (예 : 높은 다변량 직교 다항식 모델)보다 안전합니다. 훈련 데이터에서 벗어날 수 있습니다.

그러나 다른 경우에는 모델이 특정 무증상 행동을 갖기를 원할 수 있습니다. 이는 일정한 수렴이 아닙니다. 물리적으로 고려하면 크기가 충분히 크면 모형이 선형이되어야합니다. 이 경우 선형 평균 함수가 필요합니다. 일반적으로 모델의 전역 속성이 해당 응용 분야에 유용한 경우 평균 함수의 선택에주의해야합니다. 모델의 로컬 (훈련 포인트에 가까운) 동작에만 관심이있는 경우 0 또는 상수 평균 GP가 충분할 수 있습니다.엑스


델타, 좋은 평균 기능이 무엇인지 아십니까?
바다에있는 노인.

1
@Anoldmaninthesea는 응용 프로그램에 많이 의존합니다. 내가 설명했듯이, 해석 가능한 모델이 필요하지 않거나 훈련 세트에서 "멀리 떨어진"예측에 관심이 없다면 평균 함수보다는 공분산 함수 개선에 노력을 집중하는 것이 좋습니다.
DeltaIV

1
델타, 내 경우에는 관찰 된 데이터와는 거리가 멀어 예측을 시도해야합니다 ... stats.stackexchange.com/questions/375468/…
이 노인

6

우리는 강의를 한 사람을 대신하여 말할 수 없습니다. 화자가 그 말을 할 때 화자는 다른 생각을 가지고 있었을 것입니다. 그러나 GP에서 사후 예측을 구성하려는 경우 상수 평균 함수에는 정확하게 계산할 수있는 닫힌 형태의 솔루션이 있습니다. 그러나보다 일반적인 평균 함수의 경우 시뮬레이션과 같은 대략적인 방법을 사용해야합니다.

또한 공분산 함수는 평균 함수에서 얼마나 빨리 (및 어디서) 편차가 발생 하는지를 제어하므로보다 유연한 / 견고한 공분산 함수가 더 화려한 평균 함수를 근사화하기에 "충분히 좋은"경우가 종종 있습니다. 상수 평균 함수의 편의 속성에 액세스합니다.


그 설명에 감사드립니다. 그래, 나는 내 질문을 할 수 없었고 이것에 대한 합리적인 이유가 있는지 궁금해하고있었습니다.
Luca

6

화자가 의도하지 않은 설명을 드리겠습니다. 어떤 응용에서는 수단이 항상 지루합니다. 예를 들어 자동 회귀 모델 매출을 예측한다고 가정 해 보겠습니다 . 장기 평균은 분명히 입니다. 재미 있나요? E [ y t ] μ = c와이=기음+γ와이1+이자형이자형[와이]μ=기음1γ

그것은 당신의 목표에 달려 있습니다. 상점 평가 후에는 값이 다음과 같이 주어지기 때문에 상점의 가치를 높이기 위해 를 늘리 거나 를 줄여야 함을 알려줍니다 . 여기서 은 할인 요소. 따라서 평균은 분명히 흥미 롭습니다.γ V = μ기음γ r

V=μ아르 자형
아르 자형

유동성에 관심이있는 경우, 즉 몇 개월 안에 비용을 충당하기에 충분한 현금이 있다면 평균은 거의 관련이 없습니다. 다음 달의 현금 예측을보고 계실 것입니다 : 이번 달의 판매 은 이제 한 가지 요인입니다.y 0

와이1=기음+γ와이0
와이0

6

좋은 이유 중 하나는 평균 함수가 모델링하려는 함수 영역에 존재하지 않을 수 있기 때문입니다. 각 입력 점 는 대응하는 사후 평균 가질 수 있습니다 . 그러나 이러한 사후 평균점은 다른 데이터를보기 전에 예상되는 것입니다. 따라서 미래 데이터가 관찰되는 상황이 그 평균 기능을 생성하지 않는 경우가 많습니다.엑스나는μ(엑스나는)

간단한 예 : 오프셋은 알 수 없지만주기와 진폭은 1 인 사인 함수를 피팅한다고 상상해보십시오. 이전의 평균은 모든 대해 0 이지만 우리가 설명한 사인 함수의 공간에는 일정한 선이 없습니다. 공분산 함수는 추가 구조 정보를 제공합니다.엑스


0

간단히 말해서, 평균 함수는 관측에서 '멀리 떨어진'입력에 대한 공분산 함수를 지배합니다.
사전 지식을 시스템의 매크로 역학에 주입하는 방법입니다.


1
귀하의 답변을 이해하지 못합니다. 당신은 명확히 할 수 있습니까?
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.