저는 ICA (Independent Component Analysis)를 처음 사용했으며이 방법에 대한 기본적인 이해를했습니다. ICA는 한 가지 예외를 제외하고는 요인 분석 (FA)과 유사합니다. ICA는 관측 된 랜덤 변수가 비가 우스 독립 성분 / 인자의 선형 조합 인 것으로 가정하지만 고전적인 FA 모델은 관측 된 랜덤 변수를 가정합니다. 상관 된 가우스 성분 / 인자의 선형 조합입니다.
위의 내용이 정확합니까?
저는 ICA (Independent Component Analysis)를 처음 사용했으며이 방법에 대한 기본적인 이해를했습니다. ICA는 한 가지 예외를 제외하고는 요인 분석 (FA)과 유사합니다. ICA는 관측 된 랜덤 변수가 비가 우스 독립 성분 / 인자의 선형 조합 인 것으로 가정하지만 고전적인 FA 모델은 관측 된 랜덤 변수를 가정합니다. 상관 된 가우스 성분 / 인자의 선형 조합입니다.
위의 내용이 정확합니까?
답변:
FA, PCA 및 ICA는 모두 '관련 적'이며, 3 개 모두 데이터가 투영되는 기준 벡터를 찾는만큼 삽입 기준을 최대화합니다. 기본 벡터를 선형 조합을 캡슐화하는 것으로 생각하십시오.
예를 들어, 데이터 행렬 는 x 행렬, 즉 두 개의 임의 변수 가 있고 각각 관측치가 있다고 가정합니다. 그런 다음 의 기본 벡터를 찾았다 고 가정 . (첫 번째) 신호를 추출하면 (벡터 ) 다음과 같이 수행됩니다. 2 N N w = [ 0.1 - 4 ] Y
이것은 단지 "데이터의 첫 번째 행에 0.1을 곱하고 데이터의 두 번째 행을 4 배 빼는 것"을 의미합니다. 그런 다음 제공합니다. 물론 여기에서 삽입 기준을 최대화 한 속성을 갖는 x 벡터입니다. 1 N
그렇다면 그 기준은 무엇입니까?
2 차 기준 :
PCA에서 데이터의 분산을 '가장 잘 설명하는'기본 벡터를 찾고 있습니다. 첫 번째 (즉, 최고 순위) 기본 벡터는 데이터의 모든 분산에 가장 적합한 것입니다. 두 번째 규칙도이 기준을 갖지만 첫 번째 규칙과 직교해야합니다. PCA에 대한 기본 벡터는 데이터 공분산 행렬의 고유 벡터에 불과합니다.
FA에서는 FA가 생성되는 반면 PCA는 그렇지 않기 때문에 FA와 PCA간에 차이가 있습니다. 나는 '잡음'을 '특정 요인'이라고 부르는 '소음이있는 PCA'로 FA가 묘사되는 것을 보았습니다. 마찬가지로 PCA와 FA는 2 차 통계 (공분산)를 기반으로하며 위의 것은 없다는 결론을 내립니다.
더 높은 주문 기준 :
ICA에서 기본 벡터를 다시 찾고 있지만 이번에는 결과를 제공하는 기본 벡터를 원하므로이 결과 벡터가 원래 데이터 의 독립 구성 요소 중 하나가 됩니다. 정규화 된 첨도의 절대 값 (4 차 통계량)을 최대화하여이를 수행 할 수 있습니다. 즉, 데이터를 기본 벡터로 투영하고 결과의 첨도를 측정합니다. 기본 벡터를 약간 변경 한 다음 (보통 기울기 상승을 통해) 첨도 등을 다시 측정합니다. 결국 기본 벡터에 도달하여 가장 높은 첨도를 갖는 결과를 얻습니다. 구성 요소.
위의 다이어그램은 시각화에 도움이 될 수 있습니다. PCA 벡터가 분산이 최대화 된 방향을 찾으려고하면서 ICA 벡터가 서로간에 독립적으로 데이터 축에 어떻게 대응하는지 명확하게 확인할 수 있습니다. (결과물과 비슷 함).
상단 다이어그램에서 PCA 벡터가 ICA 벡터와 거의 일치하는 것처럼 보이는 경우 이는 우연의 일치입니다. 다음은 다른 데이터와 믹싱 매트릭스가 매우 다른 다른 예입니다. ;-)
좀 빠지는. 요인 분석은 두 번째 순간에 작동하며, 데이터가 가우시안 (Gaussian)이어서 가능성 비와 그와 같은 것들이 비정규성에 영향을받지 않기를 바랍니다. 반면에 ICA는 CLT로 인해 항목을 추가 할 때 정상적인 무언가를 얻고 데이터가 비정규 적이므로 비정규 구성 요소를 추출 할 수 있다는 아이디어에 동기를 부여합니다. 그들. 비정규 성을 활용하기 위해 ICA는 입력의 선형 조합의 네 번째 순간을 최대화하려고 시도합니다.
ICA를 PCA와 비교하면 표준화 된 입력 조합의 두 번째 모멘트 (분산)를 최대화합니다.