시차의 순서를 올가미?


9

형식의 종단 데이터가 있다고 가정합니다 여러 관측 값이 있습니다. 이것은 하나의 형태 일뿐입니다). 제한에 관심이 있습니다. 제한없는 는 와 것과 같습니다. .Y=(Y1,,YJ)N(μ,Σ)ΣΣ

Yj=αj+=1j1ϕjYj+εj
εjN(0,σj)

이것은 공분산 모수를 추정해야하기 때문에 일반적으로 수행되지 않습니다 . 모델은 "lag-입니다 "우리가 가지고가는 경우에 즉, 우리는 앞을 사용 히스토리에서 를 예측하는 항 .O(J2)k

Yj=αj+=1kϕjYj+εj,
kYj

내가 정말로하고 싶은 것은 LASSO와 같은 중 일부를 위해 일종의 수축 아이디어를 사용하는 것입니다 . 그러나 것은 나 또한 내가 lag-있는 모델을 선호하는 데 사용하는 방법 싶습니다이다 일부 ; 고차 지연을 저차 지연보다 더 많이 벌고 싶습니다. 예측 변수가 서로 밀접하게 관련되어 있다는 점을 고려할 때 특히이 방법을 원한다고 생각합니다.ϕjkk

추가 문제는 (예) 가 으로 축소 된 경우 이 으로 축소 된 경우에도 좋아합니다 . 즉, 모든 조건부 분포에 동일한 지연이 사용됩니다.ϕ350ϕ360

나는 이것에 대해 추측 할 수 있지만 바퀴를 재발 명하고 싶지 않습니다. 이런 종류의 문제를 해결하도록 설계된 LASSO 기술이 있습니까? 지연 주문을 단계적으로 포함시키는 것과 같이 완전히 다른 일을하는 것이 더 낫습니까? 내 모델 공간이 작기 때문에이 문제에 페널티를 사용할 수도 있습니까?L0

답변:


2

k = 0에서 최대 값까지 반복적으로 교차 검증을 수행하고 k에 대한 성능을 플로팅 할 수 있습니다. 모델이 이전에는 보지 못한 데이터에 대해 테스트되고 있기 때문에 복잡한 모델의 성능이 더 우수하다는 보장은 없으며, 과적 합으로 인해 모델이 너무 복잡해지면 성능이 저하되는 것을 볼 수 있습니다. 개인적으로 나는 이것이 임의의 페널티 팩터를 갖는 것보다 더 안전하고 정당화하기 쉽다고 생각하지만 마일리지는 다를 수 있습니다.

나는 또한 올가미가 어떻게 질문에 대답했는지를 따르지 않습니다. 너무 제한적이며 계수의 순서를 완전히 강제합니다. 원래의 질문은 가 l로 엄격하게 감소하지 않는 솔루션을 가진 일부 데이터에 대해 끝날 수 있습니다 .ϕlj


질문에 LaTeX를 추가하려면 식을 달러 기호 ($)로 묶습니다.
패트릭 Coulombe 1

1
(1) 모델에서만 계수 순서가 바람직하다는 것은 분명하지 않지만 실질적으로 합리적입니다. 예를 들어, 반복 된 측정 임상 시험에서, 작은 동요가 의 작은 동요보다 확률 적으로 영향을 미칠 것으로 기대할 실질적인 이유는 없다 . 정렬 된 LASSO는 사실이 아닐 수도있는 약간의 위험과 함께이 사전 지식을보다 잘 활용합니다. Yj2YjYj1
guy

(2) 일반적으로이 CV 전략은 너무 독단적이므로 적어도 부분적으로는 사용하지 않을 것입니다. 지연을 완전히 버리지 않고 신중하게 축소하여 더 나은 예측을 얻을 수 있습니다.
guy

Nir, 주문 된 LASSO에 대한 유용한 의견. 좀 더 포괄적으로 답변을 편집했습니다. 감사!
Sean Easter

고마워 션. 이봐, 너무 독단적이라고 생각하지 않아. 당신은 돌로 ak를 설정하지 않고 오히려 그것을 변하게합니다. 그것이 선택한 k는 과적 합의 시작에있을 것이다. 또한 선험적 지식에 대한 귀하의 진술에 강력하게 동의하지 않습니다. 합리적으로 보이고 그 사실을 아는 것은 전혀 다릅니다. 나는 결코 이해하지 못했던 교차 검증에 대한 전통적인 통계에 저항이있는 것으로 인정해야합니다. 매일 가정을 추가하는 것보다 샘플 데이터에서 예측 효율성을 선택합니다.
Nir Friedman

2

(가) LASSO 주문한 당신이 찾고있는 할 것 같다 : 그것은 정규화 회귀 계수 계산 추가적인 제약 조건에 표준 LASSO 같이하지만, 대상이.β1...j|β1||β2|...|βj|

이는 고차 지연에 대한 계수를 제로화하는 두 번째 목표를 달성하지만, 저 지연 모델을 선호하는 유일한 제한보다 더 제한적입니다. 그리고 다른 사람들이 지적했듯이, 이것은 정당화하기가 매우 어려운 무거운 제한입니다.

주의 사항을 배제한 후,이 논문은 실제 및 시뮬레이션 된 시계열 데이터에 대한 방법의 결과를 제시하고 계수를 찾기위한 알고리즘을 자세히 설명합니다. 결론은 R 패키지를 언급하지만, 논문은 최근에 이루어졌으며 CRAN에서 "주문 된 LASSO"에 대한 검색 결과가 나오지 않아 패키지가 아직 개발 중이라고 생각합니다.

이 논문은 또한 두 개의 정규화 매개 변수가 "근음 음성을 장려하는"일반화 된 접근법을 제공한다. 즉, 편안한 주문을 위해 매개 변수를 조정할 수 있어야합니다. 슬프게도 이완 방법의 예나 비교는 제공되지 않습니다. 그러나 저자는이 변경 사항을 구현하는 것이 하나의 알고리즘을 다른 알고리즘으로 대체하는 간단한 문제이므로 향후 R 패키지의 일부가되기를 희망합니다.


고마워, 이것이 최근 아이디어라는 것이 정말 흥미 롭습니다. 나는 9 개월 전에 질문을했을 때 친구와 문제를 논의하는 것과 같은 아이디어를 생각해 냈지만, 깊이 조사한 적이 없다! 나는 그 아이디어가 그 소설이 아니거나 다른 누군가가 이미 그것에 관한 논문을 썼다고 가정했다.
guy

매우 환영합니다! 나는 그것이 자신이 너무 최근 인 것에 놀랐다.
Sean Easter

1

중첩 된 LASSO 페널티 ( pdf )를 사용할 수 있지만 R 패키지는 없습니다.


1
현재 이것은 답변보다 더 많은 의견입니다. 중첩 된 LASSO 페널티 등을 논의하여 조금 확장 할 수 있습니까?
gung-복원 Monica Monica

0

나는 당신이 그것을 전제로 썼다는 것을 알고 있지만, 이것이 순서가 필요한 LASSO의 가정이 시계열 예측에 직접적으로 적합하지 않기 때문에 이것이 필요한 것임을 절대 확신하지 않고 정렬 된 LASSO를 사용하지 않을 것입니다. 반례로서, 측정과 목표 사이에 10 단계의 지연 시간이있는 경우를 고려하십시오. 분명히, 정렬 된 LASSO 구속 조건은 처음 9 개의 매개 변수에 넌센스를 부여하지 않으면 이러한 효과를 처리 할 수 ​​없습니다.

대조적으로, 나는 일반적인 LASSO를 고수하고 이전의 모든 관측을 포함 합니다. 특히 모델 공간을 작게 작성했기 때문에 특히 여기에 설명 된 LASSO에 대한 좌표 하강 최적화 루틴 이 대규모 데이터 세트에서도 효율적으로 작동하고 있기 때문입니다. 그런 다음 정규화 강도 매개 변수 의 경로를 계산하고 큰 에서 이동할 때 어떤 매개 변수가 포함되는지 확인하십시오 . 특히 이전에 포함 된 것들이 중요한 것들입니다.λλλ=0

마지막으로, 교차 검증, 표준 1 차원 최소화 등을 사용하여 적절한 기준을 선택하고 매개 변수 를 최적화해야합니다 . 기준은 예를 들어 "예측 오류 + 포함 된 변수 수"(--AIC 기준과 유사)와 같은 것일 수 있습니다.λ


나는 강한하지 않은 경우 나는 분명히 계수의 순서에 제약에 관심이되지 않을 것이다 사전 을 믿는 이유. 필자가 생각할 수있는 모델의 경우 경험적으로 주문 된 LASSO가 더 효율적이어야합니다. 다른 9가 0 인 지연 -10 계수를 갖는 것은 실질적인 설정 에서 의미가 없습니다 . 이것은 내 동료들이 처리 한 문제 (지연에 따른 주문 축소)이지만 Bayesuan 아이디어를 사용했기 때문에 (Bayesian이 아닌) LASSO는 고려하지 않았습니다.
guy

좋아, 당신은 당신이하는 일을 알고있는 것 같습니다. 그러나 정렬 된 LASSO는 "0 번에 한 번-항상 0"문보다 더 강력하게 제한됩니다. 또는 매개 변수가 곱셈으로 입력되는 모델을 고려할 수도 있습니다. 그런 다음 계수가 0이 될 때까지 상대 중요도는 증가하거나 감소 할 수 있습니다.
davidhigh
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.