가우시안 프로세스 모델이 비모수 적이라고 불리는 이유는 무엇입니까?

26

약간 혼란 스러워요. 가우스 프로세스가 비모수 적 모델이라고하는 이유는 무엇입니까?

그들은 기능 값 또는 그 하위 집합에 평균 0과 커널 함수로 제공된 공분산 함수가있는 가우시안이 있다고 가정합니다. 이 커널 함수 자체에는 몇 가지 매개 변수 (예 : 하이퍼 파라미터)가 있습니다.

그렇다면 왜 비모수 적 모델이라고 불리는가?

nonparametric gaussian-process

— 사용자
소스

1

"가우시안 프로세스"에 대한 몇 가지 정의를 알고 있으므로 귀하의 질문이 실제로 무엇을 요구하는지는 분명하지 않습니다. 그러나 그것을 명확히하는 방법을 고려할 때, 스스로에게 물어보십시오 : 정확히 당신이 생각하는 가우시안 프로세스를 어떻게 매개 변수화 할 것입니까? 유한 한 수의 실제 매개 변수로 자연스럽게 수행 할 수없는 경우 비모수로 간주해야합니다.

— whuber

@whuber. 가우스 프로세스의 주요 매개 변수 인 AFAIK는 평균 및 공분산 함수입니다. 그러나 데이터 포인트를 계속 추가함에 따라 계속 증가하고 있습니다. 그래서 계속 증가하고 있습니다. 왜 가우시안 프로세스가 비모수 적이라고 불리는가?

— user34790

@whuber 만약 수백만 개의 훈련 데이터 포인트가 있다면, GP f ~ N (m, k)는 백만 차원 다변량 가우스 분포가 될 것입니다. 너무 크지 않습니까? 새로운 훈련 데이터가 나올수록 점점 커집니다. 계산 문제가 발생하지 않습니까?

— user34790

1

"파라 메트릭"대 "비모수"는 특정 프로세스에는 적용되지 않는 용어입니다 . 데이터에 적합 할 수있는 전체 프로세스 제품군 에 적용됩니다 . 난 아직도 당신이 생각하고있는 가족 모르는 있지만 매개 변수의 수는 어떤 상황에서 유한 수 있지만,의 회원들 사이에서 나타날 수 매개 변수의 수에 제한이없는 것처럼 들린다 가족 : ERGO, 문제가 비모수 적입니다.

— whuber

20

나는 이것이 "비모수 적"또는 "반모 수적"등으로 무엇을 의미하는지 항상 명확하지 않다고 말함으로써 이것을 서두로 언급 할 것이다. 의견에서, whuber는 공식적인 정의를 염두에두고있을 가능성이있다 (모델 선택하는 것과 같은 것 같다) 일부 가족 $M_\theta$ 여기서 는 무한 치수)이지만, 나는 비공식적입니다. 일부는 비모수 적 방법이 사용하는 유효 매개 변수 수가 데이터와 함께 증가하는 방법이라고 주장 할 수 있습니다. 나는 Peter Orbanz가 우리가 "비모수 적"을 정의하는 방법에 대해 4-5 개의 다른 테이크를 제공하는 videolectures.net에 비디오가 있다고 생각합니다. $\{M_\theta: \theta \in \Theta\}$ $\Theta$

나는 당신이 염두에 두어야 할 것을 알고 있기 때문에, 단순화를 위해 일반적인 방식으로 회귀에 가우시안 프로세스를 사용하는 것에 대해 이야기한다고 가정합니다. 훈련 데이터 우리는 조건부 평균 모델링에 관심이 . 우리는 라고 씁니다. $(Y_i, X_i), i = 1, ..., n$ $E(Y|X = x) := f(x)$ 및 아마도 우리가 가정 정도로 굵게 . 는 1 차원이지만 모든 것이 더 높은 차원으로 이어집니다.

Y_{i} = f (X_{i}) + ϵ_{i}

$Y_i = f(X_i) + \epsilon_i$

는 iid이고 정규 분포입니다.

ϵ_{i}

$\epsilon_i$

ϵ_{i} \sim N (0, σ^{2})

$\epsilon_i \sim N(0, \sigma^2)$

X_{i}

$X_i$

만약 우리의 가 연속체에서 값을 취할 수 있다면 는 무한한 차원의 매개 변수로 생각할 수 있습니다. 따라서 무한 차원의 매개 변수를 추정 한다는 점에서 문제는 비모수 적 문제입니다. 베이지안 접근 방식이 여기 저기 떠 다니는 매개 변수가 있다는 것은 사실입니다. 그러나 우리는 무한 차원의 것을 추정하기 때문에 비모수 적이라고합니다. 우리가 사용하는 GP 우선 순위는 모든 연속 함수의 모든 이웃에 질량을 할당하여 임의의 연속 함수를 임의로 추정 할 수 있습니다. $X_i$ $f(\cdot)$

공분산 함수의 것은 일반적인 잦은 추정자에서 평활화 매개 변수와 유사한 역할을 수행합니다. 문제가 절대적으로 절망적이지 않게하기 위해 우리는 전시 를 볼 것으로 예상되는 구조가 있다고 가정해야 합니다. 베이지안은 가우시안 프로세스의 형태로 연속 함수의 공간에서 사전을 사용하여이를 달성합니다. 베이지안 관점에서, 우리는 가정하여 에 대한 신념을 암호화 하고 있습니다. $f$ $f$ 가 그러한 공분산 함수를 가진 GP로부터 도출하고 있습니다. 이전은 너무 복잡하여 추정치에 효과적으로 불이익을줍니다. $f$ $f$

계산 문제 편집

이 물건의 대부분은 모두 Rasmussen과 Williams의 Gaussian Process 책에 있습니다.

$O(N^2)$ $O(N^3)$ $v$ $(K + \sigma^2 I)v = Y$ $K$ $O(N^3)$ $k$ $O(kN^2)$ $K$

$O(N^3)$ $O(kN^2)$ $N$ $m$ $m \times m$ $Y$ $N$ $m$ $O(m^2 N)$

$K$ $K = QQ^T$ $Q$ $n \times q$ $q$ $K + \sigma^2 I$ $Q^TQ + \sigma^2 I$ . 다른 옵션은 공분산 함수를 희소하게 선택하고 켤레 그라디언트 방법을 사용하는 것입니다. 공분산 행렬이 매우 희소 한 경우 계산 속도를 크게 높일 수 있습니다.

— 사람
소스

8

일반적으로 베이지안 비모수 적에서 "비모수 적"은 무한한 (잠재적) 매개 변수가있는 모델을 나타냅니다. videolectures.net (이것 과 같은) 에 관한 주제에 대한 훌륭한 튜토리얼과 강의가 많이 있습니다 .

구체적으로, GP는 함수 (즉, 무한 차원 벡터)를 나타내므로 가우시안 프로세스 (GP)는 비모수 적이라고 간주됩니다. 데이터 포인트의 수가 증가함에 따라 ((x, f (x)) 쌍), 모델 '매개 변수'의 수도 증가합니다 (함수의 모양 제한). 매개 변수 수가 데이터 크기와 관련하여 고정되어있는 파라 메트릭 모델과 달리 비모수 적 모델에서는 매개 변수 수가 데이터 포인트 수에 따라 증가합니다.

— 새긴 금
소스

이것이 바로 내가 가정했던 것입니다. 그래서 내 가정은 맞습니다. 그러나 내 질문은 백만 포인트 (관찰 된 데이터)가 있는지 여부입니다. 그러면 내 f도 백만 차원이됩니다. 따라서 계산 문제가 없습니다. 또한 공분산 행렬의 크기는 1millionx1million입니다. 이 경우 어떻게해야합니까?

— user34790

@ user34790 예, 계산 문제가 있습니다. 전산 문제는 GP에게 상당히 큰 문제입니다. Rasmussen과 Williams는 GP에 관한 책을 가지고 있으며이 장 전체를 다루는 책이 있습니다. 구글을 충분히 열심히 공부하면 온라인에서 무료로 찾을 수 있습니다. 최소한의 세부 사항은 업데이트 된 게시물을 참조하십시오.

— 남자

1

하이퍼 파라미터라고하는 매개 변수는 물리적 동기 매개 변수가 아니므로 이름입니다. 커널 기능을 매개 변수화하는 데만 사용됩니다. 가우스 커널에서 예제를 제공하려면 다음을 수행하십시오.

$K(x_i,x_j) = h^2 \exp(\frac{-(x_i - x_j)^2}{\lambda^2})$

$h$ $\lambda$

이 문제는 이 강의 에서 다뤄 졌으므로 더 잘 이해하는 데 도움이 될 수 있습니다.

— camillejr
소스