설정의 회귀 : 정규화 방법 (올가미, PLS, PCR, 융기)을 선택하는 방법은 무엇입니까?


15

나는 갈 수 있는지 여부를 확인하려 능선 회귀 , LASSO , 주성분 회귀 (PCR), 또는 부분 최소 제곱 변수 / 기능 (의 수가 많은 경우 상황에서 (PLS) p ) 및 샘플의 작은 수 ( n<p ), 내 목표는 예측이다.

이것은 내 이해 :

  1. 릿지 회귀 는 회귀 계수를 축소하지만 모든 계수를 만들지 않고 사용합니다0.

  2. LASSO 는 또한 계수를 축소하지만 계수를 만들어0변수를 선택할 수도 있습니다.

  3. 주성분 회귀 분석n 보다 작아 지도록 성분을 절단합니다 . p - n 구성 요소를 버립니다 .pnpn

  4. 부분 최소 제곱 은 또한 회귀에 대한 입력의 선형 조합 세트를 구성하지만 PCR과 달리 차원 감소 를 위해 ( X 외에 )를 사용합니다. PCR과 PLS 회귀의 주요 실제 차이점은 PCR에서 동일한 예측 오류를 달성하기 위해 PLS보다 더 많은 구성 요소가 필요하다는 것입니다 ( 여기 참조 ).yX

다음 더미 데이터를 고려하십시오 (작업하려는 실제 데이터는 유사합니다).

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

네 가지 방법의 구현 :

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

데이터에 대한 가장 좋은 설명은 다음과 같습니다.

  1. , 대부분 p > 10 n ;p>np>10n

  2. 변수 ( Y )는 서로 다른 각도로 서로 관련 되어 있습니다.XY

내 질문은이 상황에 가장 적합한 전략은 무엇입니까? 왜?


6
나는 답을 얻지 못했지만 통계 학습요소 18 장이이 주제에 집중되어 있으며 언급 한 모든 기술을 다룹니다.
shadowtalker


@ssdecontrol 게시 한 책에 감사드립니다. 매우 유용합니다
Christina

답변:


30

귀하의 질문에 대한 단일 답변이 없다고 생각합니다. 많은 상황, 데이터 및 수행하려는 작업에 달려 있습니다. 일부 수정은 목표를 달성하기 위해 수정 될 수 있거나 수정되어야합니다. 그러나 다음과 같은 일반적인 논의가 도움이 될 수 있습니다.

고급 방법으로 넘어 가기 전에 먼저 LS (Least Squares) 회귀에 대한 기본 모델에 대해 설명하겠습니다 . 전체 모형에서 모수의 최소 제곱 추정치가 만족스럽지 않은 이유는 두 가지입니다.

  1. 예측 품질 : 최소 제곱 추정은 종종 작은 편향이지만 분산이 높습니다. 회귀 계수를 축소하거나 일부 계수를 0으로 설정하여 예측 품질을 향상시킬 수 있습니다. 이런 식으로 바이어스가 증가하지만 예측의 분산이 크게 감소하여 전체적으로 개선 된 예측으로 이어집니다. 바이어스와 분산 사이의이 거래는 평균 제곱 오차 (MSE) 를 분해함으로써 쉽게 볼 수 있습니다 . MSE가 작을수록 새로운 값을 더 잘 예측할 수 있습니다.

  2. 해석 가능성 : 많은 예측 변수가 사용 가능한 경우 영향이 가장 큰 변수를 식별하고 예측과 관련이없는 변수를 0으로 설정하는 것이 좋습니다. 따라서 우리는 일부 세부 사항만을 설명하는 변수를 제거하지만 응답 변수에 대한 주요 설명을 허용하는 변수는 유지합니다.

따라서 다양한 선택 방법 이 등장합니다. 변수 선택을 사용하면 모든 입력 변수의 서브 세트 만 사용되며 나머지는 모델에서 제거됩니다. 최상의 부분 집합 회귀 분석 은 각 k { 0 , 1 , ...에 대한 크기 의 부분 집합을 찾습니다 . . . , P } 가장 작은 RSS를 제공합니다. 효율적인 알고리즘은 최대 30 또는 40 개의 회귀 변수 를 처리 할 수있는 이른바 Leaps and Bounds 알고리즘 입니다 . 40 보다 큰 데이터 세트kk{0,1,...,p}304040입력 변수는 모든 가능한 부분 집합을 통한 검색이 불가능 해집니다. 따라서 앞으로 단계적 선택 및 뒤로 단계적 선택이 유용합니다. 뒤로 선택 은 잘 정의 된 모델을 갖기 위해 경우에만 사용할 수 있습니다 . p 가 매우 높으면 이러한 방법의 계산 효율에 의문의 여지 가 있습니다.n>pp

많은 상황에서 우리는 많은 수의 입력을 가지고 있으며 (귀하의 경우와 같이) 종종 상관 관계가 있습니다. 상관 관계가 높은 회귀 분석의 경우, OLS는 수치 적으로 불안정한 파라미터 , 즉 신뢰할 수없는 추정값을 초래합니다 . 이 문제를 피하기 위해 파생 된 입력 방향을 사용하는 메소드를 사용합니다. 이러한 방법은 적은 수의 선형 조합 z k , k = 1 , 2 ,을 생성 합니다. . . , Q 일본어 입력은 X J 다음 회귀에 대한 입력으로 사용된다.βzk,k=1,2,...,qxj

방법은 선형 조합이 구성되는 방식이 다릅니다. PCR (Principal Components Regression) 은 원래 데이터를 주요 구성 요소 라는 새로운 상관되지 않은 변수 세트로 변환하는 것을 찾습니다 .

PLS (Partial Least Squares) 회귀 -이 기법은 회귀 에 대한 입력의 선형 조합 세트를 구성하지만 주성분 회귀와 달리이 구성 에 X 외에 를 사용합니다 . yX 가 모두 중심에 있다고 가정합니다 . 선형 모델에서 파라미터 β 를 계산하는 대신 , 소위 잠재 변수 모드 에서 파라미터 γ 를 추정 합니다. 새로운 계수 γ 의 치수가 q p 인 것으로 가정합니다 . PLS는 X 의 가중치 버전에서 회귀를 수행합니다.yXyXβγγqpX불완전하거나 부분적인 정보가 포함되어 있습니다. PLS는 또한 를 사용하여 PLS 방향을 결정하므로,이 방법은 예를 들어 PCR보다 더 나은 예측 성능을 갖는 것으로 가정된다. PCR과 달리 PLS는 분산이 높고 y 와 큰 상관 관계가있는 방향을 찾고 있습니다.yy

λ0λ

ββ

Xpq

YiL1과 L2의 차이점은 L2가 가중치의 제곱의 합이고 L1이 가중치의 합이라는 것입니다. L1-norm은 희소 계수를 생성하는 경향이 있으며 내장 기능 선택 기능이 있습니다. L1-norm에는 분석 솔루션이 없지만 L2-norm에는 분석 솔루션이 있습니다. 이를 통해 L2-norm 솔루션을 계산 효율적으로 계산할 수 있습니다. L2-norm에는 고유 한 솔루션이 있지만 L1-norm에는 없습니다.

s0s

pN

주성분 분석 은 데이터 세트에서 큰 변화를 나타내는 피쳐의 선형 조합을 찾는 효과적인 방법입니다. 그러나 여기서 우리가 추구하는 것은 분산이 높고 결과와 유의 한 상관 관계가있는 선형 조합입니다. 따라서 주성분 분석을 통해 성과 감독 된 주요 성분 과 높은 상관 관계가있는 피처의 선형 조합을 찾도록 장려하고 싶습니다 ( 통계학의 학습 요소 에있는 678 페이지 알고리즘 18.1 참조 ).

부분 최소 제곱은 노이즈 기능에 가중치를 부여하지만 버리지는 않습니다. 결과적으로 많은 노이즈 특성이 예측을 오염시킬 수 있습니다. 임계 PLS는 관리되는 주요 구성 요소의 노이즈 버전으로 볼 수 있으므로 실제로는 제대로 작동하지 않을 수 있습니다. 감독 된 주성분Threshold PLS 보다 테스트 오류가 낮을 수 있습니다 . 그러나 항상 소수의 피처 만 포함 된 희소 모델을 생성하지는 않습니다.

p


1
Bias2+Variance

2
"L2-norm은 고유 한 솔루션을 가지고 있지만 L1-norm은 그렇지 않다"는 말의 의미는 무엇입니까? 올가미 목표는 볼록한 ...
앤드류 M
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.