누구나 가우시안 프로세스 회귀 (GPR)를 고차원 데이터 세트에 적용한 경험이 있는지 알고 싶었습니다. 다양한 희소 GPR 방법 (예 : 희박 의사 입력 GPR) 중 일부를 조사하여 이상적 특성 선택이 매개 변수 선택 프로세스의 일부인 고차원 데이터 세트에 어떤 효과가 있는지 확인합니다.
시도 할 논문 / 코드 / 또는 다양한 방법에 대한 제안은 분명히 감사합니다.
감사.
누구나 가우시안 프로세스 회귀 (GPR)를 고차원 데이터 세트에 적용한 경험이 있는지 알고 싶었습니다. 다양한 희소 GPR 방법 (예 : 희박 의사 입력 GPR) 중 일부를 조사하여 이상적 특성 선택이 매개 변수 선택 프로세스의 일부인 고차원 데이터 세트에 어떤 효과가 있는지 확인합니다.
시도 할 논문 / 코드 / 또는 다양한 방법에 대한 제안은 분명히 감사합니다.
감사.
답변:
가우시안 프로세스 모델은 일반적으로 고차원 데이터 세트에서 양호합니다 (마이크로 어레이 데이터 등에서 사용했습니다). 핵심은 하이퍼 파라미터에 적합한 값을 선택하는 것입니다 (정규화와 유사한 방식으로 모델의 복잡성을 효과적으로 제어합니다).
스파 스 방법과 의사 입력 방법은 많은 기능이 아니라 샘플 수가 많은 데이터 세트 (> 컴퓨터의 경우 약 4000)에 더 적합합니다. 공분산 행렬의 hole 레 스키 분해 (n by n, 여기서 n은 샘플 수)를 수행 할 수있는 강력한 컴퓨터가있는 경우 이러한 방법이 필요하지 않습니다.
MATLAB 사용자라면 GPML 도구 상자와 Rasmussen과 Williams 의 책 을 시작 하는 것이 좋습니다 .
그러나 기능 선택에 관심이 있다면 GP를 피할 수 있습니다. GP를 사용한 기능 선택에 대한 표준 접근 방식은 자동 관련성 결정 커널 (예 : GPML의 covSEard)을 사용한 다음 커널 매개 변수를 조정하여 한계 가능성을 최대화하여 기능 선택을 달성하는 것입니다. 불행히도 이것은 한계 가능성에 과도하게 적합하고 단순한 구형 방사형 기저 함수 (GPML의 covSEiso) 공분산을 가진 모델보다 성능이 더 나쁜 모델로 끝날 수 있습니다.
나의 현재 연구 초점은 현재 모델 선택의 과잉 적합에 중점을두고 있으며, 커널 모델에서 하이퍼 파라미터의 교차 검증 기반 최적화에 대한 것만 큼 GP의 증거 최대화에 있어서도 이것이 큰 문제라는 것을 알았습니다. 볼 이 종이 , 그리고 이 일을 .
비선형 모델의 피처 선택은 매우 까다 롭습니다. 선형 모델을 고수하고 L1 정규화 유형 접근 방식 (Lasso / LARS / Elastic net 등)을 사용하여 희소성 또는 임의의 포리스트 방법을 달성하면 성능이 향상되는 경우가 많습니다.
고차원 데이터를 처리하기 위해 특별히 설계된 공분산 함수를 사용할 수 있습니다. 예를 들어, 추가 공분산 함수에 대한 논문을 살펴보십시오 . 그것들은 다소 큰 입력 차원의 실제 데이터를 사용하여 수치 실험에서 다른 최신 공분산 함수보다 잘 작동했습니다 (약).
그러나 입력 치수가 실제로 큰 경우 ( 또는 ) 커널 방법이 실패하고 가우시안 프로세스 회귀에 대한 배제는 없습니다.