독립 성분 분석을 수행하기위한 적절한 전처리 단계는 무엇입니까?


17

나중에 독립 성분 분석 (ICA) 을 수행하기 위해 파형을 전처리하기위한 적절한 단계는 무엇입니까 ? 그 방법에 대한 추가 설명이 아프지 않지만 그 이유에 더 관심이 있습니다.


왜 전처리가 필요한지 잘 모르겠습니다. 특별한 이유가 있습니까?
Phonon

@Phonon 저는 ICA를 수행하기 전에 데이터를 구체화 한 조사관을 만났습니다. 표준 방법이 있는지 궁금했습니다.
jonsca

매우 흥미로운. 건설적인 답변을보고 싶습니다.
Phonon

1
EEG 신호에 대한 스펙트럼 분석의 경우, 사람들은 스펙트럼의 모양의 지배적 인 효과를 줄이기 위해 희게되며 , 종종 고주파에서 흥미로운 것들을 숨 깁니다. 보충 자료에서 이것에 대해 적어도 약간의 토론이 있습니다 . 이것이 ICA 이전의 일반적인 속임수인지 확실하지 않습니다. 어플리케이션이 EEG / MEG / LFP 신호입니까? 내 직감이 옳다면 ICA를 수행하는 누군가가 이것을 완전한 해답으로 만들 수 있습니다. 재미있는 질문-읽어 보겠습니다. 1/에프
ImAlsoGreg

1
@ Giigili 그것은 또한 질문의 일부입니다. 정상적인 단계로 간주되는 것은 무엇입니까?
jonsca

답변:


15

독립 성분 분석 (ICA)을 분리하는 데 사용되는 선형 의 혼합물을 통계적으로 독립적 이며, 가장 중요한 비 가우시안 그 구성 요소로한다. 무소음 ICA의 표준 모델은

엑스=에스

여기서 는 관측 또는 데이터 벡터이고 s 는 소스 신호 / 원본 구성 요소 (비 가우시안)이고 A 는 구성 신호의 선형 혼합을 정의하는 변환 벡터입니다. 일반적으로 As 는 알려져 있지 않습니다.엑스에스에스

전처리

ICA에는 두 가지 주요 전처리 전략, 즉 센터링 및 화이트닝 / 스피어 링이 있습니다. 전처리의 주요 이유는 다음과 같습니다.

  • 알고리즘 단순화
  • 문제의 차원 감소
  • 추정 할 모수의 수를 줄입니다.
  • 평균 및 공분산으로 데이터 세트의 강조 표시 기능을 쉽게 설명 할 수 없습니다.

G. Li와 J. Zhang의 소개에서 "구형과 그 속성", The Indian Journal of Statistics, Vol. 60, 시리즈 A, 파트 I, 119-133, 1998 년 :

특이 치, 군집 또는 다른 종류의 그룹, 커브 또는 비평면 근처의 농도는 아마도 데이터 분석가에게 중요한 특징 일 것입니다. 일반적으로 표본 평균 및 공분산 행렬에 대한 지식만으로는 얻을 수 없습니다. 이러한 상황에서, 평균과 공분산 행렬에 포함 된 정보를 분리하고 우리가 잘 이해하지 못하는 데이터 이외의 데이터 세트의 측면을 조사하도록 강요하는 것이 바람직합니다. 센터링 및 스피어 링은 평균 공분산 정보를 제거하고 선형 상관 관계 및 타원 모양 이외의 구조를 강조 표시하는 데 도움이되는 간단하고 직관적 인 접근 방식이므로 데이터 세트의 디스플레이 또는 분석을 탐색하기 전에 종종 수행됩니다.

1. 센터링 :

센터링은 매우 간단한 연산이며 단순히 평균 을 빼는 것을 말합니다 . 실제로는 표본 평균을 사용하고 새로운 벡터 x c = x¯ x를 생성합니다 . 여기서 ¯ x 는 데이터의 평균입니다. 기하학적으로 평균을 빼는 것은 좌표 중심을 원점 으로 변환 하는 것과 같습니다 . 평균은 항상 결과의 끝에 다시 추가 될 수 있습니다 (매트릭스 곱셈은 분배 적이므로 가능합니다).이자형{엑스}엑스=엑스엑스¯엑스¯

2. 미백 :

미백은 데이터가 항등 공분산 행렬, 즉 가되도록 데이터를 변환하는 변환입니다 . 일반적으로 표본 공분산 행렬을 사용하여이자형{엑스엑스}=나는

Σ^=.엑스엑스

여기서 는 적절한 정규화 요소에 대한 나의 게으른 자리 표시 자입니다 ( x 의 크기에 따라 다름 ). 새로운 희게 한 벡터는 다음과 같이 생성됩니다엑스

엑스=Σ^1/2엑스

공분산은 입니다. 기하학적으로 미백은 스케일링 변형입니다. Mathematica의 작은 예는 다음과 같습니다.나는

s = RandomReal[{-1, 1}, {2000, 2}];
A = {{2, 3}, {4, 2}};
x = s.A;
whiteningMatrix = Inverse@CholeskyDecomposition[Transpose@x.x/Length@x];
y = x.whiteningMatrix;
FullGraphics@GraphicsRow[
  ListPlot[#, AspectRatio -> 1, Frame -> True] & /@ {s, x, y}]

여기에 이미지 설명을 입력하십시오

첫 번째 플롯은 균일하게 분포 된 두 개의 랜덤 벡터 또는 성분 의 결합 밀도입니다 . 두 번째는 변환 벡터 A 를 곱한 효과를 보여줍니다 . 정사각형이 기울어 져 마름모로 확장됩니다. 미백 매트릭스와 곱하면 관절 밀도가 원래대로 약간 회전 된 정사각형으로 돌아갑니다.에스

엑스=에스

이자형{엑스엑스}=이자형{에스(에스)}=이자형{에스에스}==나는

에스나는

변환 후 고유 값이 0에 가까우면 잡음이 많고 "오버 러닝"으로 인해 추정을 방해 할 뿐이므로이를 안전하게 버릴 수 있습니다.

3. 기타 전처리

답변에서 다루기 어려운 특정 특정 응용 프로그램과 관련된 다른 전처리 단계가있을 수 있습니다. 예를 들어 시계열의 로그를 사용하는 기사와 시계열을 필터링하는 기사를 보았습니다. 특정 적용 분야 / 조건에 적합 할 수 있지만 결과가 모든 분야에 적용되는 것은 아닙니다.

지금 은이 구성 요소에 대한 참조를 찾을 수 없지만 구성 요소 중 최대 하나가 가우시안 인 경우 ICA를 사용할 수 있다고 생각합니다 .


왜 "스 퍼링"이라고 불리는가?

{-1,1}NormalDistribution[]

여기에 이미지 설명을 입력하십시오

첫 번째는 상관 관계가없는 두 가우스의 관절 밀도이며, 두 번째는 변형 중이고 세 번째는 미백 후입니다. 실제로는 2 단계와 3 단계 만 표시됩니다.


2
와우,이 모든 것을 받아들이는 데 약간의 시간이 걸릴 것이지만, 감사는 과소 평가입니다!
jonsca

죄송합니다. 이미 수락했다고 생각했습니다.
jonsca
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.