CLR 좌표에서 바닐라 PCA에 문제가 발생할 수 있습니다. 구성 데이터에는 두 가지 주요 문제가 있습니다.
- 그들은 엄격히 음이 아닙니다
- 그들은 합계 제한이 있습니다
다양한 구성 변환이 이러한 문제 중 하나 또는 둘 다를 해결합니다. 특히, CLR은 관찰 된 주파수 사이의 비의 로그를 고려하여 데이터를 변환 그들의 기하학적 평균 , 즉엑스G ( x )
엑스^= { 로그( x1G ( x )) ,…,로그( x엔G ( x )) }= { 로그( x1) − 로그( G ( x ) ) , … , 로그( x엔) − 로그( G ( x ) ) }
이제
로그( G ( x ) ) = 로그( 특급[ 1엔∑나는 = 1엔로그( x나는) ] )= E[ 로그( x ) ]
이는
∑ x^= ∑ [ 로그( x ) − E[ 로그( x ) ] ] =0
즉, CLR은 값 범위 제한 (일부 응용 프로그램에 적합 함)을 제거하지만 합 제약 조건을 제거하지 않아 단일 공분산 행렬이 만들어져 (M) ANOVA / linear regression / ...을 효과적으로 차단합니다. PCA는 특이 치에 민감합니다 (강력한 공분산 추정에는 풀 랭크 행렬이 필요하기 때문에). 내가 아는 한 모든 구성 변환 중 ILR 만 주요한 기본 가정없이 두 가지 문제를 모두 해결합니다. 그러나 상황은 조금 더 복잡합니다. CLR 좌표의 SVD는 ILR 공간에서 직교 기반을 제공하므로 (ILR 좌표는 CLR의 초평면에 걸쳐 있음) 분산 추정치가 ILR과 CLR간에 다르지 않습니다 (물론, ILR과 CLR은 모두 isometries이므로 심플 렉스). 그러나 ILR 좌표에 대한 강력한 공분산 추정 방법이 있습니다 [2].
업데이트 I
CLR이 상관 및 위치 의존적 방법에 유효하지 않다는 것을 설명하기 위해서입니다. 선형 적으로 독립적으로 분포 된 3 개의 구성 요소로 구성된 커뮤니티를 100 번 샘플링한다고 가정 해 봅시다. 간단하게하기 위해 모든 구성 요소가 동일한 기대치 (100)와 분산 (100)을 갖도록하십시오.
In [1]: import numpy as np
In [2]: from scipy.stats import linregress
In [3]: from scipy.stats.mstats import gmean
In [4]: def clr(x):
...: return np.log(x) - np.log(gmean(x))
...:
In [5]: nsamples = 100
In [6]: samples = np.random.multivariate_normal(
...: mean=[100]*3, cov=np.eye(3)*100, size=nsamples
...: ).T
In [7]: transformed = clr(samples)
In [8]: np.corrcoef(transformed)
Out[8]:
array([[ 1. , -0.59365113, -0.49087714],
[-0.59365113, 1. , -0.40968767],
[-0.49087714, -0.40968767, 1. ]])
In [9]: linregress(transformed[0], transformed[1])
Out[9]: LinregressResult(
...: slope=-0.5670, intercept=-0.0027, rvalue=-0.5936,
...: pvalue=7.5398e-11, stderr=0.0776
...: )
업데이트 II
내가받은 응답을 고려할 때 PCA가 CLR 변환 된 데이터에서 작동하지 않는다고 대답 한 시점이 없음을 지적해야합니다. 나는 CLR이 미묘한 방식으로 PCA를 깨뜨릴 수 있다고 말했는데 , 이는 차원 축소에는 중요하지 않지만 탐색 적 데이터 분석에는 중요합니다. @Archie이 인용 한 논문은 미생물 생태학을 다룹니다. 전산 생물학 분야에서 다양한 거리 행렬의 PCA 또는 PCoA는 데이터의 변동 원인을 탐색하는 데 사용됩니다. 내 대답은이 맥락에서만 고려해야합니다. 또한, 이것은 논문 자체에서 강조됩니다 :
... 구성 biplot [참고 : PCA 참조] 은 β- 다양성 분석을위한 주 좌표 (PCoA) 플롯에 비해 몇 가지 장점이 있습니다. 데이터가 부분 집합 일 때 얻은 결과는 매우 안정적이며 (Bian et al., 2017), 탐색 적 분석 은 단순히 데이터의 존재 부재 관계 나 과도한 희소성에 의해 주도되지 않습니다 (Wong et al., 2016; Morton et al. al., 2017).
Gloor et al., 2017
III 업데이트
발표 된 연구에 대한 추가 참고 자료 (참조를 추가 할 것을 권장하는 @Nick Cox에게 감사드립니다) :
- PCA에 CLR 사용에 대한 인수
- 상관 기반 방법에 CLR 사용에 대한 인수
- ILR 소개
clr
.... 않습니다