독립 성분 분석을 위해 성분 수를 어떻게 선택합니까?

11

좋은 구성 요소가 없으면 독립적 구성 요소 분석에서 요청해야 할 구성 요소의 수에 대해 선험적으로 추측합니다. 선택 프로세스를 자동화하려고합니다. 합리적인 기준은 계산 된 구성 요소 간의 상관 관계에 대한 전역 증거를 최소화하는 숫자 일 수 있다고 생각합니다. 이 접근법의 유사 코드는 다음과 같습니다.

for each candidate number of components, n:
    run ICA specifying n as requested number of components
    for each pair (c1,c2) of resulting components:
        compute a model, m1: lm(c1 ~ 1)
        compute a model, m2: lm(c1 ~ c2)
        compute log likelihood ratio ( AIC(m2)-AIC(m1) ) representing the relative likelihood of a correlation between c1 & c2
    compute mean log likelihood ratio across pairs
Choose the final number of components as that which minimizes the mean log likelihood of component relatedness

이러한 후보로 인한 ICA는 여러 개의 추정 된 구성 요소에 단일 단일 구성 요소의 정보를 배포하여 구성 요소 쌍 간의 상관 관계에 대한 평균 증거를 증가시켜야하기 때문에 이것이 "참"수의 구성 요소보다 많은 수의 후보에 자동으로 불이익을 줄 것이라고 생각합니다.

이게 말이 되요? 그렇다면, 위에서 제안한 평균 로그 우도 접근 방식보다 추정 된 구성 요소에서 관련성에 대한 집계 메트릭스를 더 빨리 달성 할 수있는 방법이 있습니까? 이 방법이 의미가 없다면, 좋은 대안 절차는 어떻게 보일까요?

ica

— 마이크 로렌스
소스

6

ICA에 대한 변형 앙상블 학습 접근 방식은 이러한 "자동 관련성 검색"을 수행 할 수 있습니다. Bayesian Evidence의 경계를 향상시키는 데 필요하지 않은 구성 요소를 자동으로 끕니다.

가능한 제임스 Miskin의 논문을 살펴 가지고 여기에 기술을 소개합니다.

이것은 John Winn (메시지 전달 알고리즘을 통해 베이지안 앙상블 학습을 구현하는 또 다른 PhD)에 의해 Java에서 매우 깔끔하게 구현됩니다.

이 기술을 배우기 위해 여기 에서 얻을 수있는 C ++로 Winn의 알고리즘을 구현하기로 결정했습니다 (활성 개발).

— 톰
소스

2

Tom이 말했듯이 자동 관련성 결정은 확률 모델에서 구성 요소의 작은 하위 집합을 선택하는 좋은 방법입니다.

ICA에 대한 또 다른 접근 방식은 인도 뷔페 프로세스를 사용하는 것입니다. Knowles와 Ghahramani는 "무한 스파 스 팩터 분석 및 무한 독립 컴포넌트 분석"에서이를 수행합니다.

— 사용자 1149913
소스