가우스 프로세스 회귀 장난감 문제


9

Gaussian Process 회귀에 대한 직관을 얻으려고 노력했기 때문에 간단한 1D 장난감 문제를 시도했습니다. 나는했다 입력으로하고, 응답한다. ( 에서 '영감' )xi={1,2,3}yi={1,4,9}y=x2

회귀를 위해 표준 제곱 지수 커널 함수를 사용했습니다.

k(xp,xq)=σf2exp(12l2|xpxq|2)

공분산 행렬이 다음과 같이되도록 표준 편차 인 노이즈가 있다고 가정했습니다 .σn

Kpq=k(xp,xq)+σn2δpq

하이퍼 파라미터 는 데이터의 로그 우도를 최대화하여 추정되었습니다. 지점에서 예측하기 위해 다음과 같이 각각 평균과 분산을 찾았습니다.(σn,l,σf)x

μx=kT(K+σn2I)1y
σx2=k(x,x)kT(K+σn2I)1k

여기서 는 와 입력 값 의 공분산 벡터 이며 는 출력값의 벡터입니다.kxy

대한 내 결과 는 다음과 같습니다. 파란색 선은 평균이고 빨간색 선은 표준 편차 간격을 표시합니다.1<x<3

결과

이것이 옳은지 확실하지 않습니다. 내 입력 ( 'X'로 표시)이 파란색 선 위에 있지 않습니다. 내가 본 대부분의 예는 입력을 교차시키는 평균을 가지고 있습니다. 이것이 일반적인 기능입니까?


1
내가 추측해야한다면, 당신이보고있는 예제에서 잔류 오류는 없었습니다. 이 경우 선은 모든 점을 통과합니다.
guy

@Guy 정확히 맞습니다.

답변:


10

데이터 포인트를 통과하는 평균 함수는 일반적으로 과적 합을 나타냅니다. 한계 확률을 최대화하여 하이퍼 파라미터를 최적화하면 더 복잡한 것을 정당화하기에 충분한 데이터가없는 한 매우 간단한 모델을 선호하는 경향이 있습니다. 노이즈가 거의없는 라인에 3 개 정도의 데이터 포인트 만 있기 때문에 발견 된 모델이 상당히 합리적입니다. 본질적으로 데이터는 중간 정도의 노이즈가있는 선형 기본 함수 또는 노이즈가 적은 중간 정도의 비선형 기본 함수로 설명 할 수 있습니다. 전자는 두 가설 중 더 단순하며 "Occam 's Razor"가 선호합니다.


입력 해 주셔서 감사합니다. "과적 합"에 대해 좀 더 말씀해 주시겠습니까? 긍정적 / 부정적 기능입니까?
Comp_Warrior

과적 합은 부정적인 것입니다. 이는 기본적으로 모형이 데이터의 랜덤 변이를 암기한다는 것을 의미하며, 이는 일반화 성능을 악화시키는 경향이 있습니다. 이상적으로는 모델이 데이터를 오염시키는 노이즈를 무시하면서 기본 형태의 데이터를 학습하기를 원합니다. 가장 좋은 머신 러닝 교재는 초기 장에서이 내용을 다룰 것입니다.
Dikran Marsupial

왜 관심이 없으십니까?
Dikran Marsupial

나는 당신을 downvote하지 않았다; 사실 나는 upvoted했다!
Comp_Warrior

2
문제 없음 Comp_Warrior, 나는 그것이 당신이라고 생각하지 않았지만 누군가가 내 대답을 하향 조정했으며 그 이유에 대한 피드백을 기뻐할 것입니다. 우리는 모두 잘못을 저지르며 대답에 잘못된 것이 있으면 정정하려고합니다.
Dikran Marsupial

7

노이즈 용어 (가우스 프로세스 문헌에서 너깃 효과라고 함)를 추가하여 Kriging 추정기를 사용하고 있습니다. 노이즈 항이 0으로 설정된 경우, 즉

σn2δpq=0

그러면 예측이 보간으로 작용하여 샘플 데이터 포인트를 통과합니다.


3

이것은 Rasmussen의 GP 책에서 평균 함수가 각 데이터 포인트를 통과하지 않는 예제를 분명히 보여줍니다. 회귀선은 기본 함수에 대한 추정치이며 관측치가 기본 함수 값에 약간의 노이즈를 더한 것으로 가정합니다. 회귀선이 세 점을 모두 기반으로하는 경우 관측 된 값에 노이즈가 없다고 말하는 것입니다.

을 설정 하고 다른 하이퍼 파라미터를 최적화하면 노이즈가 없다고 가정 할 수 있습니다.σn=0

또한 하이퍼 파라미터 이 상대적으로 큰 값으로 설정되어 매우 얕은 기능을 제공한다고 생각합니다.l

당신은 유지 시도 할 수 다양한 작은 값으로 고정을하고, 그 곡선을 변경하는 방법을 참조하십시오. 당신이 강제 경우 아마도 조금 작게, 회귀선은 데이터의 모든 사항을 전달할 것입니다.ll

Dikran Marsupial이 지적한 바와 같이, 이것은 가우시안 프로세스 (Gaussian Processes)의 내장 기능이며, 한계 가능성은 너무 구체적인 모델에 불이익을주고 많은 데이터 세트를 설명 할 수있는 모델을 선호합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.