uv
maxcov(Xu,Yv).(1)
Ycov(Xu,y)≡Var(Xu)1/2×cor(Xu,y)×Var(y)1/2,st.∥u∥=1.
이후 에 의존하지 않는 , 우리는 극대화해야 . 데이터가 개별적으로 표준화되는 곳을 고려해 봅시다 (처음에는 및 대신 선형 조합의 스케일을 실수로 잘못했습니다 !). ; 그러나 이며 의존합니다 . 결론적으로,
잠재 성분과 반응 변수 사이의 상관 관계를 최대화하면 동일한 결과를 얻을 수 없습니다Var(y)uVar(Xu)1/2×cor(Xu,y)X=[x_1;x_2]
x1x2Var(x1)=Var(x2)=1Var(Xu)≠1u.
나는 올바른 방향으로 나를 지적한 Arthur Tenenhaus 에게 감사해야합니다 .
단위 중량 벡터를 사용하는 것은 제한하지 않고 (일부 패키지 pls. regression
에 plsgenomics Wehrens의 이전 패키지의 코드를 기반으로이 pls.pcr
요청 된 경우), (하지만 여전히 규범 1의 잠재 요소와 함께) 표준화가 가중 벡터를 반환합니다. 그러나 대부분의 PLS 패키지는 사용 된 패키지 , 특히 SIMPLS 또는 NIPALS 알고리즘을 구현하는 패키지를 포함하여 표준화 된 를 반환 합니다. Barry M. Wise의 프레젠테이션, 부분 최소 제곱 (PLS) 회귀 속성 및 알고리즘 간의 차이점 에서 두 가지 접근 방식에 대한 좋은 개요를 찾았 지만 화학 측정법은u비 네트는 또한 좋은 토론을 제공합니다 (26-29 페이지). 센터링 및 / 또는 스케일링이 내부적으로 처리되기 때문에 대부분의 PLS 루틴 (적어도 R에서 아는 것)이 표준화되지 않은 변수를 제공한다고 가정한다는 사실도 특히 중요합니다 (예 : 교차 검증을 수행 할 때 특히 중요 함) ).
제약 조건 주어지면, 벡터 는u′u=1u
u=X′y∥X′y∥.
약간의 시뮬레이션을 사용하면 다음과 같이 얻을 수 있습니다.
set.seed(101)
X <- replicate(2, rnorm(100))
y <- 0.6*X[,1] + 0.7*X[,2] + rnorm(100)
X <- apply(X, 2, scale)
y <- scale(y)
# NIPALS (PLS1)
u <- crossprod(X, y)
u <- u/drop(sqrt(crossprod(u))) # X weights
t <- X%*%u
p <- crossprod(X, t)/drop(crossprod(t)) # X loadings
위의 결과 ( u=[0.5792043;0.8151824]
특히)를 R 패키지가 제공 하는 것과 비교할 수 있습니다 . 예를 들어, chemometrics 패키지 ( mixOmics 패키지 에서 사용 가능한 다른 구현 ) 에서 NIPALS를 사용 하면 다음을 얻을 수 있습니다.
library(chemometrics)
pls1_nipals(X, y, 1)$W # X weights [0.5792043;0.8151824]
pls1_nipals(X, y, 1)$P # X loadings
plsr
기본 커널 PLS 알고리즘을 사용 하여 비슷한 결과를 얻을 수 있습니다 .
> library(pls)
> as.numeric(loading.weights(plsr(y ~ X, ncomp=1)))
[1] 0.5792043 0.8151824
모든 경우에 의 길이가 1인지 확인할 수 있습니다 .u
읽기 기능으로 최적화하도록 기능을 변경 한 경우
f <- function(u) cov(y, X%*%(u/sqrt(crossprod(u))))
u
나중에 정규화 ( u <- u/sqrt(crossprod(u))
)하면 위의 솔루션에 더 가깝습니다.
참고 : (1) 기준은 해당하므로
는 가장 큰 고유 값에 해당하는 의 SVD에서 왼쪽 특이 벡터로 찾을 수 있습니다 .
maxu′X′Yv,
uX′Y
svd(crossprod(X, y))$u
보다 일반적인 경우 (PLS2)에서, 위를 요약하는 방법은 첫 번째 PLS 표준 벡터가 양방향으로 X와 Y의 공분산 행렬의 가장 근사치라고 말하는 것입니다.
참고 문헌
- Tenenhaus, M (1999). L' approche PLS . 통계 응용 프로그램 Revue de Statistique Appliquée , 47 (2), 5-40.
- ter Braak, CJF 및 de Jong, S (1993). 부분 최소 제곱 회귀의 목적 함수입니다 . Chemometrics의 전표 , 12, 41–54.
- Abdi, H (2010). 잠재 구조 회귀 (PLS 회귀)에 대한 부분 최소 제곱 회귀 및 투영 . 와일리 학제 간 검토 : 전산 통계 , 2, 97-106.
- Boulesteix, AL 및 Strimmer, K (2007). 부분 최소 제곱 : 고차원 게놈 데이터 분석을위한 다목적 도구 . 생물 정보학 브리핑 , 8 (1), 32-44.
pls