탄성 / 리지 / lasso 분석은 무엇입니까?


19

예측 변수 축소 / 선택을위한 탄력적 순 절차에 실제로 관심이 있습니다. 매우 강력 해 보입니다.

그러나 과학적 관점에서 계수를 얻은 후에는 어떻게해야할지 잘 모릅니다. 어떤 질문에 대답하고 있습니까? 이것들은 그 결과에 가장 큰 영향을 미치는 변수 들이며 이것들은 검증하는 동안 최고의 분산 / 바이어스 비율을 제공하는 계수들입니까?

물론 이것은 전통적인 p 값 / 신뢰 구간 접근 방식과 비교할 때 매우 설명 적 / 예측 적 접근 방식입니다. Tibshirani & Co.는 현재 추론 추정을 연구하고 있지만 아직 실험 중입니다.

어떤 사람들은 탄성 순으로 선택된 변수를 사용하여 고전적인 추론 분석을 수행하지만, 이는 기술로 인한 분산의 한계를 제거합니다.

또 다른 문제는 탄성 그물에 대한 람다 및 알파 파라미터가 교차 검증에 의해 선택되기 때문에 랜덤하게 변할 수 있다는 점이다. 따라서 cv.glmnet ()을 실행할 때마다 항상 다른 계수를 가진 약간 다른 예측 변수의 하위 집합을 선택합니다.

나는 올바른 람다와 알파를 임의의 변수로 고려 하여이 문제를 해결하고 교차 검증 단계를 n 번 다시 실행하여 이러한 매개 변수의 분포를 얻습니다. 이렇게하면 모든 예측 변수에 대해 발생 횟수와 모든 계수에 대해 결과 분포를 갖게됩니다. 이것은 범위 통계 (계수의 sd와 같은) 로보 다 일반적인 결과를 제공해야합니다. 람다와 알파 가이 분포를 무의식적으로 일부 분포에 가깝게 선택했는지 여부를 보는 것이 흥미로울 것입니다. 왜냐하면 추론 테스트의 길을 열 수 있기 때문입니다 (그러나 나는 통계학자가 아니므로 내가하지 않는 것에 대해 말해서는 안됩니다 완전히 이해하지 못했습니다).

마지막으로 내 질문은 : 교차 검증 기반 알파 및 람다가있는 탄성 그물에서 예측 변수와 계수를 얻으면이 결과를 어떻게 제시해야합니까? 그들에 대해 어떻게 논의해야합니까? 우리는 무엇을 배웠습니까? 우리는 어떤 가설 / 일반화를 혼란스럽게하고 있습니까?


나는 이것이 적절하게 대답하기에 지나치게 광범위하거나 불분명하다고 생각합니다. 어떤 경우에는 귀하의 진술이 명확하지 않은 것으로 판단됩니다 (예 : "의미 한 의미는 무엇입니까? 그러나 기술로 인한 차이의 제한을 제거 할 것입니다. ") . cv.glmnet ()은 항상 다른 계수를 가진 약간 다른 예측 변수의 부분 집합을 선택합니다. "- 항상 그렇지는 않지만 CV가 올바르게 수행 된 경우 일반적으로 발생하는 경우에도 치명적이지 않습니다.)
usεr11852는 Reinstate Monic

I 탄성 네트 검색된 동기 부여는 여기 (약간 다른 방법을 통해) 더 자세히 부연된다합니다 (Zou는, 탄성 hastie 순 용지 섹션 2.3까지) 가변 클러스터링에 관한 : ncbi.nlm.nih을 .gov / pmc / articles / PMC4011669
user795305

답변:


8

올가미와 탄성 망과 같은 이러한 방법은 기능 선택과 예측의 문제로 인해 탄생했습니다. 이 두 렌즈를 통해 설명을 찾을 수 있다고 생각합니다.

Matthew Gunn은 그의 대답에서이 두 가지 목표가 뚜렷하고 종종 다른 사람들에 의해 채택된다고 잘 설명합니다. 그러나 다행히도 우리가 관심있는 방법은 두 분야에서 모두 잘 수행 될 수 있습니다.

기능 선택

먼저 기능 선택에 대해 이야기하겠습니다. 우리는 먼저 올가미의 관점에서 탄성 그물에 동기를 부여해야합니다. 즉, Hastie와 Zou의 말을 인용하자면 , "쌍별 상관 관계가 매우 높은 변수 그룹이 있다면, 올가미는 그룹에서 하나의 변수 만 선택하는 경향이 있으며 어떤 변수가 선택되는지 상관하지 않습니다." 예를 들어, 올가미를 사용하여 진정한 지원의 요소를 찾지 못할 가능성이 높기 때문에 문제가됩니다. (이 논문은 이것이 아직 읽지 않은 LARS 논문에서 입증되었다고 언급합니다.) 상관 관계가있을 때 지원 복구의 어려움은 Wainwright 도 지적합니다 .0.5진정한지지와 보완 사이에 높은 상관 관계가있는 경우

이제 탄성 그물의 l2 페널티는 손실과 l1 페널티만으로 계수를 구별 할 수없는 것으로 간주되는 피처가 동일한 추정 계수를 갖도록 권장합니다. 우리는 는. 이로 인해 탄력적 그물은 우리가 실제로 우연히 지원하는 계수 추정치를 '실수로'소멸시킬 가능성을 줄입니다. 즉, 실제 지원이 예상 지원 내에 포함될 가능성이 높습니다. 잘 됐어요! 그것은 더 많은 거짓 발견이 있다는 것을 의미하지만, 대부분의 사람들이 기꺼이 지불하는 가격입니다.| | = | b |(,)=인수',':=|'|+|'|(')2+(')2||=||

또한 상관 관계가 높은 피처는 매우 유사한 계수 추정치를 갖는 경향이 있기 때문에 추정 된 지원 내에서 응답에 영향을주는 피처 그룹을 감지 할 수 있습니다.

예측

이제 예측으로 넘어갑니다. Matthew Gunn이 지적한 것처럼 교차 유효성 검사를 통해 튜닝 매개 변수를 선택하면 예측 오류가 가장 적은 모델을 선택하는 것이 목표입니다. 올가미에 의해 선택된 모델은 탄성 그물에 의해 선택 될 수 있기 때문에 ( 을 취함으로써 ), 탄성 그물이 올가미보다 더 나은 예측 모델을 찾을 수 있다는 것이 의미가있다.α=1

Lederer, Yu 및 Gaynanova 는 기능에 대한 어떠한 가정에서도 올가미와 탄성 망이 모두 같은 양으로 l2 예측 오차를 가질 수 있음을 보여줍니다. 그들의 경계가 좁다는 것은 반드시 사실은 아니지만, 통계적 문헌에서 오라클 불평등 이 추정기의 예측 성능을 정량화하는 표준 방법 인 것처럼 보일 수 있습니다. 아마도 분포가 너무 복잡하기 때문입니다! Lederer (1) (2) 에는 상관 기능이있는 경우 올가미 예측에 대한 논문이 있다는 점도 주목할 가치가 있습니다.

요약

요약하면, 관심있는 문제는 추정 된 지원 및 예측 내에있는 진정한 지원입니다. 지원 복구를 위해 올가미가 진정한 지원과 보완 사이의 상관 관계가 낮다는 가정하에 올가미가 모델에 포함 할 올바른 기능을 선택한다는 엄격한 보증이 있습니다 (Wainwright를 통해). 그러나 상관 관계가 존재하는 경우, 실제 지원 기능을 선택하는 모든 기능 중에서 선택할 가능성을 높이기 위해 탄력적 그물로 돌아갈 수 있습니다. (여기서 튜닝 매개 변수를 신중하게 선택해야합니다.) 그리고 교차 검증을 통해 튜닝 매개 변수를 선택할 때 예측을 위해, 특히 상관 관계가있을 때 탄성 망이 올가미보다 성능이 우수해야한다는 직관적 인 의미가 있습니다. .

예측과 형식을 제쳐두고 무엇을 배웠습니까? 우리는 진정한지지에 대해 배웠습니다.

신뢰 구간

올가미에 대한 유효한 추론과 관련하여 지난 2 년 동안 많은 변화가 있었음을 지적 할 가치가 있습니다. 특히 Lee, Sun, Sun 및 Taylor의 연구는 선택된 주어진 모델에 대한 올가미의 계수에 대한 정확한 추론을 제공합니다. (실제 계수에 대한 올가미 추론 결과는 OP의 포스트 시점에 있었고, 관련 논문에 잘 요약되어 있습니다.)


정규화 된 공변량 추정치가 연구를 반복 할 수있는 추정치와 더 유사하다고 가정하는 것이 옳습니까? 즉, 정규화가 샘플 외부 예측 오류를 최소화하는 데 도움이되므로 샘플 및 샘플 외부 예측과의 차이를 최소화하는 데 도움이 될 수 있습니까?
Bakaburg

1
@Bakaburg, 맞습니다. 정규화는 분산이 적은 추정값을 만듭니다.
user795305

9

정규화 매개 변수를 선택하기 위해 교차 유효성 검사를 사용하여 탄성, 릿지 또는 올가미로 수행하는 작업은 예측최적화 하기 위해 선형 형식을 맞추는 것 입니다. 왜 이러한 특정 정규화 매개 변수입니까? 새로운 데이터에 대한 예측에 가장 적합하기 때문입니다. Ridge 또는 Lasso에서 수행되는 것처럼 바이어스를 도입 하여 계수 추정값을 0으로 축소 하면 과적 합 및 수축 분산을 줄일 수 있습니다 . 아이디어는 새로운 데이터에 대한 예측을 최적화하기 위해 페널티 매개 변수가 올바른 균형을 유지하는 것입니다.

데이터 생성 프로세스가 다음과 같다고 상상해보십시오.

와이나는=에프(엑스나는,β)+ϵ나는

하자 매개 변수의 추정치가 될 , 그리고하자 관찰을위한 우리의 예측 될 β Y j 개의Jβ^β와이^제이제이

결과를 어떻게 제시해야합니까? 기본 연구 질문이 무엇인지에 달려 있습니다! 물러서서 어떤 질문에 대답하려고 하는지 깊이 생각할 수 있습니다 . 청중은 무엇에 관심이 있습니까? 무엇을하려고합니까?

  • 예측?
  • 추정 계수?
  • 변수 선택?

두 가지 유형의 연구 질문을 구분하는 것이 중요합니다.

  1. 예측에 주로 관심이있는 질문, 즉와이^제이
  2. 매개 변수 추정치 대해 주로 신경 쓰는 질문 .β^

기존 머신 학습 기술은 이전의 예측 문제에 대해 매우 강력 할 수 있습니다 . 당신이 알고있는 것처럼 선반 머신 학습 기술의 표준은 매우 문제가 될 수 있습니다 .와이^β^

  • 고차원 설정에서, 많은 다른 매개 변수화는 동일한 예측을 제공합니다 . 모수 개수 가 관측치 수 비해 높으면 개별 모수를 잘 추정하지 못할 수 있습니다. k 개의N와이^케이
  • 다른 접기에 대해 훈련 된 알고리즘은 모수 추정치가 상당히 다를 수 있습니다.
  • 머신 러닝의 강조는 인과 적 영향을 일관되게 추정하지 않고 예측에 있습니다. (이것은 일반적으로 주요 이슈가 인과 적 영향을 지속적으로 추정하는 계량 경제학과 대조됩니다). 일부 기능적 형태를 예측하는 예측은 원인을 추정하는 것과 다릅니다. 경찰 수준이 범죄 수준을 잘 예측할 수 있으며 이것이 경찰이 범죄를 유발한다는 의미는 아닙니다.

그리고 당신이 인식하는 바와 같이, 일부 머신 러닝 파라미터 화가 작동하는 이유 를 해석하는 데 문제가있을 수 있습니다 . 잠재 고객이 예측 블랙 박스에 익숙합니까? 아니면 예측 이 어떻게 질문의 중심에 작용합니까?

올가미와 릿지 : 그것들을 사용해야하는 고전적인 이유

  • 클래식 머신 러닝, 예측 문제, 주요 관심사가 인 상황에 탄력적 그물을 사용할 수 있습니다 . 어떤 의미에서는 정규화를 통해 더 많은 예측 변수를 포함 할 수 있지만 여전히 통제력을 과도하게 유지합니다.와이^

  • 정규화를 사용하여 과적 합을 방지 할 수 있습니다. 예 : 다항식 곡선 피팅의 맥락에서 능선 회귀는 상당히 잘 작동 할 수 있습니다.

  • @ Benjamin이 그의 대답에서 지적했듯이 Lasso는 변수 선택에도 사용할 수 있습니다. 특정 규칙 성 조건에서 올가미는 지속적으로 적절한 모델을 선택합니다. 관련이없는 계수는 0으로 설정됩니다.

Lasso 및 Ridge 의 및 페널티는 각각 계수 추정값을 0으로 편향시킵니다. 치우침이 크면 계수 추정값을 해석하려는 경우 심각한 문제가 될 수 있습니다. 표준 오류 추정치를 얻으려면 부트 스트랩과 같은 작업을 수행해야합니다. 간단한 폐쇄 형 솔루션은 없습니다 (내가 아는 것). 릿지, 올가미 및 탄성 그물은 일반적인 OLS 회귀와 유사하지만 정규화 및 변수 선택은 추론을 상당히 다르게 만듭니다 ...L 212

내가 계속 돌아 오는 것은 당신이 알아 내려고하는 것에 대한 더 많은 맥락이 없다면 능선 회귀, 올가미 또는 탄성 그물을 실행 한 결과를 해석하기가 매우 어렵다는 것입니다!


Sendhil Mullainathan 교수는 2017 년 1 월 AFA 회의에서이 게시물의 일부를 동기 부여한 기계 학습에 대해 이야기했습니다.


3
이런 생각은 제 생각에 결함이 있습니다. 그것은 근본적인 현상이 인간에 의해 이해 될 수있을 정도로 단순하다는 가정에 근거합니다. 고차원 모델은 대부분 인간이 이해하기에는 너무 복잡하지만 대규모 인공 지능에 매우 적합합니다. 실제로 최상의 예측자는 현상을 이해할 수 있는지 여부에 관계없이 현상을 가장 잘 해석합니다.
Cagdas Ozgenc

2
@CagdasOzgenc 필자는 일부 기능이 끔찍하게 복잡하고 인간에게는 설명하기 어렵지만 기계로 이해하고 학습 할 수 있다는 유효한 지적이라고 생각합니다 (예 : 체스 판 평가). 이러한 상황에서는 기계가 배운 내용을 해석하지 않고 손을 던지는 것이 좋습니다. 다른 한편으로, 인과 적 영향이있는 약물 시험과 같은 상황이 있습니다. 다수의 혼란스러운 존재, 선택 효과 등이있을 때 추정하려는 평균 효과는 ... 어떤 의미에서는 다른 문제와 필요가 있습니다. 다른 기술.
Matthew Gunn

1
@ Benjamin 근본적인 문제는 OP가 가장 직접 요구하는 것은 탄성 그물에서 0 계수로 바이어스 된 것을 이해할 수있는 해석이 존재하지 않을 수 있다는 것입니다. 예측 변수가 10,000이고 관측치가 5,000이라고 가정합니다. 공동으로, 계수는 예측에서 훌륭한 역할을 수행 할 수 있지만 개별적으로 각 계수는 잘못 추정 된 불량 일 수 있습니다. 한 걸음 물러서서 근본적인 연구 질문이 무엇인지 물어볼 가치가 있다고 생각합니까? 목표는 무엇입니까? 예측을 찾 거나 계수를 추정합니까? 아니면 다른 것? 와이^
Matthew Gunn
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.