나중에 독립 성분 분석 (ICA) 을 수행하기 위해 파형을 전처리하기위한 적절한 단계는 무엇입니까 ? 그 방법에 대한 추가 설명이 아프지 않지만 그 이유에 더 관심이 있습니다.
나중에 독립 성분 분석 (ICA) 을 수행하기 위해 파형을 전처리하기위한 적절한 단계는 무엇입니까 ? 그 방법에 대한 추가 설명이 아프지 않지만 그 이유에 더 관심이 있습니다.
답변:
독립 성분 분석 (ICA)을 분리하는 데 사용되는 선형 의 혼합물을 통계적으로 독립적 이며, 가장 중요한 비 가우시안 † 그 구성 요소로한다. 무소음 ICA의 표준 모델은
여기서 는 관측 또는 데이터 벡터이고 s 는 소스 신호 / 원본 구성 요소 (비 가우시안)이고 A 는 구성 신호의 선형 혼합을 정의하는 변환 벡터입니다. 일반적으로 A 와 s 는 알려져 있지 않습니다.
ICA에는 두 가지 주요 전처리 전략, 즉 센터링 및 화이트닝 / 스피어 링이 있습니다. 전처리의 주요 이유는 다음과 같습니다.
G. Li와 J. Zhang의 소개에서 "구형과 그 속성", The Indian Journal of Statistics, Vol. 60, 시리즈 A, 파트 I, 119-133, 1998 년 :
특이 치, 군집 또는 다른 종류의 그룹, 커브 또는 비평면 근처의 농도는 아마도 데이터 분석가에게 중요한 특징 일 것입니다. 일반적으로 표본 평균 및 공분산 행렬에 대한 지식만으로는 얻을 수 없습니다. 이러한 상황에서, 평균과 공분산 행렬에 포함 된 정보를 분리하고 우리가 잘 이해하지 못하는 데이터 이외의 데이터 세트의 측면을 조사하도록 강요하는 것이 바람직합니다. 센터링 및 스피어 링은 평균 공분산 정보를 제거하고 선형 상관 관계 및 타원 모양 이외의 구조를 강조 표시하는 데 도움이되는 간단하고 직관적 인 접근 방식이므로 데이터 세트의 디스플레이 또는 분석을 탐색하기 전에 종종 수행됩니다.
1. 센터링 :
센터링은 매우 간단한 연산이며 단순히 평균 을 빼는 것을 말합니다 . 실제로는 표본 평균을 사용하고 새로운 벡터 x c = x − ¯ x를 생성합니다 . 여기서 ¯ x 는 데이터의 평균입니다. 기하학적으로 평균을 빼는 것은 좌표 중심을 원점 으로 변환 하는 것과 같습니다 . 평균은 항상 결과의 끝에 다시 추가 될 수 있습니다 (매트릭스 곱셈은 분배 적이므로 가능합니다).
2. 미백 :
미백은 데이터가 항등 공분산 행렬, 즉 가되도록 데이터를 변환하는 변환입니다 . 일반적으로 표본 공분산 행렬을 사용하여
여기서 는 적절한 정규화 요소에 대한 나의 게으른 자리 표시 자입니다 ( x 의 크기에 따라 다름 ). 새로운 희게 한 벡터는 다음과 같이 생성됩니다
공분산은 입니다. 기하학적으로 미백은 스케일링 변형입니다. Mathematica의 작은 예는 다음과 같습니다.
s = RandomReal[{-1, 1}, {2000, 2}];
A = {{2, 3}, {4, 2}};
x = s.A;
whiteningMatrix = Inverse@CholeskyDecomposition[Transpose@x.x/Length@x];
y = x.whiteningMatrix;
FullGraphics@GraphicsRow[
ListPlot[#, AspectRatio -> 1, Frame -> True] & /@ {s, x, y}]
첫 번째 플롯은 균일하게 분포 된 두 개의 랜덤 벡터 또는 성분 의 결합 밀도입니다 . 두 번째는 변환 벡터 A 를 곱한 효과를 보여줍니다 . 정사각형이 기울어 져 마름모로 확장됩니다. 미백 매트릭스와 곱하면 관절 밀도가 원래대로 약간 회전 된 정사각형으로 돌아갑니다.
변환 후 고유 값이 0에 가까우면 잡음이 많고 "오버 러닝"으로 인해 추정을 방해 할 뿐이므로이를 안전하게 버릴 수 있습니다.
3. 기타 전처리
답변에서 다루기 어려운 특정 특정 응용 프로그램과 관련된 다른 전처리 단계가있을 수 있습니다. 예를 들어 시계열의 로그를 사용하는 기사와 시계열을 필터링하는 기사를 보았습니다. 특정 적용 분야 / 조건에 적합 할 수 있지만 결과가 모든 분야에 적용되는 것은 아닙니다.
† 지금 은이 구성 요소에 대한 참조를 찾을 수 없지만 구성 요소 중 최대 하나가 가우시안 인 경우 ICA를 사용할 수 있다고 생각합니다 .
{-1,1}
NormalDistribution[]
첫 번째는 상관 관계가없는 두 가우스의 관절 밀도이며, 두 번째는 변형 중이고 세 번째는 미백 후입니다. 실제로는 2 단계와 3 단계 만 표시됩니다.