r의 올가미를 사용한 다변량 선형 회귀


9

상관 관계가 높은 많은 종속 변수 (DV) (~ 450)를 예측하기 위해 축소 된 모델을 만들려고합니다.

내 독립 변수 (IV)도 많고 (~ 2000) 서로 관련이 있습니다.

올가미를 사용하여 각 출력에 대해 축소 된 모델을 개별적으로 선택하면 각 종속 변수를 반복 할 때 동일한 독립 변수 하위 집합을 얻을 수 없습니다.

R에서 올가미를 사용하는 다변량 선형 회귀가 있습니까?

이것은 올가미 그룹이 아닙니다. 올가미 그룹 IV. 나는 올가미를 구현하는 다변량 선형 회귀 (DV가 스칼라 벡터가 아닌 행렬임을 의미)를 원합니다. (참고 : NRH가 지적한 것처럼 이것은 사실이 아닙니다. 그룹 올가미는 IV를 그룹화하는 전략을 포함하지만 DV와 같은 다른 매개 변수를 그룹화하는 전략을 포함하는 일반적인 용어입니다)

나는이 논문이 Sparse Overlapping Sets Lasso 라고 불리는 것을 발견했다.

다변량 선형 회귀를 수행하는 코드는 다음과 같습니다.

> dim(target)
[1] 6060  441
> dim(dictionary)
[1] 6060 2030
> fit = lm(target~dictionary)

다음은 단일 DV에서 올가미를 수행하는 코드입니다.

> fit = glmnet(dictionary, target[,1])

그리고 이것이 내가하고 싶은 일입니다.

> fit = glmnet(dictionary, target)
Error in weighted.mean.default(y, weights) : 
  'x' and 'w' must have the same length

한 번에 모든 대상에 맞는 기능 선택


마지막 요점을 제외하고는 무엇을 요구하는지 불분명합니다. 패키지가 호출 glmnet되고 철저한 비 네트가 있습니다.
generic_user

"때마다"는 무슨 뜻입니까? 데이터의 하위 집합에서 이것을 실행하고 있습니까? 교차 검증? 다른 샘플?
shadowtalker

매번, 나는 현재 한 번에 하나의 종속 변수에서 glmnet을 실행하고 있으며 모든 변수를 반복합니다
kmace

또는 다른 말로 내 Y는 항상 벡터가 아닌 행렬
kmace

1
@Firebug 절대적으로. 나는 그 용어가 더 일반적이라는 것을 몰랐다. 죄송합니다
kmace

답변:


11

다변량 반응 (1보다 큰 종속 변수의 수)의 경우을 family = "mgaussian"호출 해야 합니다 glmnet.

lsgl 패키지는 보다 유연한 벌금을 제공하는 대안이다.

k차원 응답, glmnet 패키지는 페널티 여기서 는 번째 예측 변수 의 계수 벡터입니다 . 도움말 페이지에서 다음을 읽을 수 있습니다.

j=1pβj2

βj=(βj1,,βjk)Tjglmnet

전자 [ family = "mgaussian"]는 각 변수의 계수에 대한 "그룹 -lasso"페널티를 사용하여 다중 반응 가우스 모형을 적합하게합니다. 이와 같은 응답을 함께 묶는 것을 일부 영역에서 "멀티 태스킹"학습이라고합니다.

이 패널티는 그룹 올가미 패널티의 예이며, 동일한 예측 변수와 연관된 다른 반응에 대한 모수를 그룹화합니다. 주어진 조정 매개 변수 값에 대해 모든 반응에서 동일한 예측 변수를 선택합니다.

lsgl 패키지는 형식의 스파 스 그룹 올가미 처벌을 구현 합니다. 여기서 및 는 다른 항의 기여도를 맞추기 위해 선택된 특정 가중치입니다. 기본값은 및 입니다. 파라미터 은 튜닝 파라미터입니다. 함께 (및 ) 페널티가 사용 패널티 동등 와 . 함께 (그리고

αj=1pl=1kξjl|βjl|+(1α)j=1pγjβj2

ξjlγjξjl=1γj=kα[0,1]α=0γj=1glmnetfamily = "mgaussian"α=1ξjl=1) 페널티는 보통 올가미를 제공합니다. lsgl 구현은 또한 예측 변수의 추가 그룹화를 허용합니다.

그룹 올가미에 대한 메모. 그룹 올가미 라는 용어 는 종종 예측 자 그룹화와 관련이 있습니다. 그러나보다 일반적인 관점에서 그룹 올가미 는 단순히 페널티에있는 매개 변수의 그룹입니다. glmnetwith에서 사용 family = "mgaussian"하는 그룹화는 응답에서 매개 변수의 그룹화입니다. 이러한 그룹화의 효과는 반응에 걸쳐 모수의 추정값을 결합하는 것입니다. 이는 거의 모든 동일한 반응 예측 변수 세트에서 모든 반응을 예측할 수있는 경우 좋은 아이디어로 판명됩니다. 일부 구조를 공유 할 것으로 예상되는 여러 학습 문제를 결합시키는 일반적인 아이디어를 다중 작업 학습이라고 합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.