2016 년에 실제로 필요한 예측 모델링을위한 변수 선택?


67

이 질문은 몇 년 전 CV에서 1) 훨씬 더 나은 컴퓨팅 기술 (예 : 병렬 컴퓨팅, HPC 등) 및 2) 새로운 기술 (예 : [3])을 고려하여 다시 게시 할 가치가있는 것으로 보입니다.

먼저, 어떤 맥락. 목표가 가설 검정이 아니라 효과 추정이 아니라 보이지 않는 검정 세트에 대한 예측이라고 가정합시다. 따라서 해석 가능한 이점에는 가중치가 부여되지 않습니다. 둘째, 주제를 고려할 때 예측 변수의 관련성을 배제 할 수 없다고 가정 해 봅시다. 그것들은 개별적으로 또는 다른 예측 자와 결합하여 그럴듯 해 보인다. 셋째, 수백만 명의 예측 자와 대면합니다. 넷째, 무제한 예산으로 AWS에 액세스 할 수 있으므로 컴퓨팅 성능이 제약 조건이 아니라고 가정합니다.

변수 선택의 일반적인 이유는 1) 효율성입니다. 더 작은 모형에 적합하고 더 적은 예측 변수를 수집하기 위해 더 저렴합니다. 2) 해석; "중요한"변수를 아는 것은 기본 프로세스에 대한 통찰력을 제공합니다 [1].

많은 변수 선택 방법이 효과적이지 않고 종종 매우 위험한 것으로 널리 알려져 있습니다 (예 : 앞으로 단계적 회귀) [2].

둘째, 선택한 모형이 적합하다면 예측 변수 목록을 전혀 삭감 할 필요가 없습니다. 모델이 당신을 위해해야합니다. 좋은 예는 올가미로, 모든 관련없는 변수에 0 계수를 할당합니다.

어떤 사람들은 "코끼리"모델을 사용하는 것을 옹호합니다. 생각할 수있는 모든 예측 변수를 적합하게 던져 넣습니다 [2].

목표가 예측 정확도 인 경우 변수 선택을 수행해야하는 근본적인 이유가 있습니까?

[1] Reunanen, J. (2003). 변수 선택 방법을 비교할 때 과적 합합니다. 기계 학습 연구 저널, 3, 1371-1382.

[2] Harrell, F. (2015). 회귀 모델링 전략 : 선형 모형, 로지스틱 및 순서 회귀 분석 및 생존 분석에 적용 할 수 있습니다. 봄 병아리.

[3] Taylor, J., & Tibshirani, RJ (2015). 통계 학습 및 선택적 추론. 국립 과학 아카데미의 절차, 112 (25), 7629-7634.

[4] Zhou, J., Foster, D., Stine, R., & Ungar, L. (2005, August). 알파 투자를 사용한 스트리밍 기능 선택. 데이터 마이닝에 관한 지식 발견에 관한 제 11 회 ACM SIGKDD 국제 회의 (pp. 384-393)에서 발췌. ACM.


6
좋은 첫 번째 질문-복제본으로 닫힐 수는 있지만 구별되는 느낌을내는 데 많은 노력을 기울인 것에 감사드립니다. 제목을 수정하는 것이 좋습니다. 예측에만 초점을 맞추는 것이 더 명확합니다.
Silverfish

5
이 질문이 이미 요청되었지만 시간이 지난 후에 다시 게시해야하는 경우 이전 질문에 대한 링크를 제공 할 수 있습니까? 이전 답변을 비교하는 것이 흥미로울 수 있습니다.

1
하나는 당신이하지 않는 것입니다. 기능 선택은 본질적으로 신뢰할 수 없습니다.
horaceT

8
희소 피쳐의 하위 세트를 자동으로 선택하는 방법 (예 : l1 불이익 모델)도 피쳐 선택을 수행합니다. 따라서 중요한 질문은 "기능 선택이 양호 / 나쁜가"가 아니라 "좋은 기능 선택 방법과 나쁜 기능을 구별하는 특성은 무엇입니까?"입니다. 올가미에서와 같이 매개 변수 추정과 함께 수행되는 것은 하나의 속성이며, 다른 많은 속성과 함께 중요한지 여부를 묻습니다.
user20160 2016 년

2
@ToussaintLouverture 1 년 전에이 질문을 게시 한 이후로 두 번째 (그리고 세 번째) 생각을했습니다. 이제 적절한 질문은 실험의 모든 기능에서 일반화되는 더 유능한 모델을 선택하기 위해 모델 선택보다는 변수 선택에 노력을 기울이는 것이 얼마나 중요한지 믿습니다.
horaceT

답변:


37

Google이 예측 알고리즘을 구축 할 때 사용 가능한 모든 기능을 사용한다는 소문이 있습니다. 그러나 현재까지이 소문을 명확하게하거나 논박하는 면책, 설명 또는 백서가 나오지 않았습니다. 공개 된 특허조차도 이해에 도움이되지 않습니다. 결과적으로 Google 외부 사용자는 내가 아는 한 자신이 무엇을하고 있는지 알 수 없습니다.

/ * 2019 년 9 월 업데이트 된 Google Tensorflow 전도자는 Google 엔지니어가 현재 버전의 PageRank에 대해 50 억 개가 넘는 매개 변수를 정기적으로 평가한다고 발표했습니다 . * /

OP가 지적한 바와 같이, 예측 모델링에서 가장 큰 문제 중 하나는 고전 가설 테스트와 신중한 모델 사양 대 순수한 데이터 마이닝 간의 상관 관계입니다. 고전적으로 훈련 된 사람들은 모델 설계 및 개발에서 "엄격한"필요성에 대해 상당히 독단적 일 수 있습니다. 사실 많은 수의 후보 예측 변수와 여러 가능한 목표 또는 종속 변수에 직면 할 때 클래식 프레임 워크가 작동하지 않으며 유용한 지침을 제공하지도 않습니다. 최근의 수많은 논문들은 Chattopadhyay와 Lipson의 훌륭한 논문 인 Data Smashing : Lurking Order in Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf 에서이 딜레마를 설명합니다 .

주요 병목 현상은 오늘날 대부분의 데이터 비교 알고리즘이 인간 전문가에 의존하여 비교할 데이터의 '기능'을 지정한다는 것입니다. 여기서 우리는 도메인 지식이나 학습을 사용하지 않고 임의의 데이터 스트림 소스 간의 유사성을 추정하기위한 새로운 원칙을 제안합니다.

작년 AER의 Kleinberg 등의 예측 정책 문제 에 관한 논문 . https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 "경제적 정책 결정에 유용한 도구로 데이터 마이닝 및 예측 사례를 제공합니다. 이는 인과 적 추론이 중심이 아니거나 심지어 필요한 경우를 언급합니다. "

사실 더 큰 64,000 달러짜리 질문은 예를 들어 "폐기 된"과학적 사고에 대한 Edge.org 심포지엄에 내재 된 고전적인 가설 테스트 프레임 워크에 대한 사고와 도전의 광범위한 변화 라는 것입니다. https://www.edge.org/ Eric Beinhocker의 "신 경제학"에 대한 최근 기사뿐만 아니라 응답 / 무엇 과학적 아이디어는 퇴직 준비가 되었으며 행동 경제학, 복잡성 이론, 예측 모델과 같이 광범위하게 다른 분야를 통합하기위한 근본적인 제안을 제시하는 "새로운 경제학" 정책 구현 및 채택을위한 플랫폼으로서의 개발, 네트워크 및 포트폴리오 이론 https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/말할 필요도없이 이러한 문제는 단순한 경제적 문제를 넘어 과학적 패러다임의 근본적인 변화를 겪고 있음을 시사합니다. 쉬프트 전망은 환원 주의적 사이의 차이만큼 기본적인 대략 몇 가지 연구 결과는 무엇인가를 설명하면, 모두 ... 유지한다고 충만 함 또는 여러 설명이 에피쿠로스 '광대 원리 대 모델 구축과 같은 오캄의 면도날 은 https : // EN합니다. wikipedia.org/wiki/Principle_of_plenitude

물론, Beinhocker와 같은 사람들은이 진화하는 패러다임에 적용되는 통계적 솔루션에 대한 참호 문제에 실질적으로 어려움을 겪지 않았습니다. 초고 차원 변수 선택에 대한 아주 중요한 질문에 대해, OP는 가용 한 모든 정보를 사용하는 Lasso, LAR, stepwise algorithms 또는 "elphant models"과 같은 모델 구축에 대한 실행 가능한 접근 방식과 관련하여 상대적으로 구체적이지 않습니다. 실제로는 AWS 나 슈퍼 컴퓨터에서도 사용 가능한 모든 정보를 동시에 사용할 수 없습니다. 모든 정보를로드 할 RAM이 충분하지 않습니다. 이것이 의미하는 바는 무엇입니까? 예를 들어, 복잡한 또는 대규모 데이터 세트에서 NSF의 발견 : 공통 통계 테마대규모 데이터 마이닝을위한 알고리즘 "분할 및 정복"(예 : Wang 등의 논문, 통계 분석 및 빅 데이터에 대한 설문 조사) http://arxiv.org/pdf/1502.07989.pdf Leskovec 등 책 대규모 데이터 세트의 광업 http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

이러한 도전 과제의 다양한 측면을 다루는 수천 개의 논문이 아니라면 문자 그대로 수백 개의 논문이 있으며, 모두 "분할 및 정복"알고리즘에서 핵심으로 다양한 분석 엔진을 제안합니다. 감독되지 않은 "딥 러닝"모델; 대규모 공분산 구성에 적용되는 랜덤 매트릭스 이론; 베이지안 텐서 모델에서 클래식, 감독 된 로지스틱 회귀 등 15 년 전, 논쟁은 대체로 계층 적 베이지안 솔루션과 잦은 유한 혼합 모델의 상대적인 장점에 관한 질문에 초점을 맞췄습니다. 이러한 문제를 다루는 논문에서 Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfHB 모델이 유리한 곳에서 희소 및 / 또는 고차원 데이터와 관련된 문제를 제외하고는 실제로 이론적으로 다른 이론적 접근법이 거의 동등한 결과를 낳았다는 결론에 도달했다. 오늘날 D & C 해결 방법이 등장하면서 역사적으로 즐겼던 모든 차익 거래 HB 모델이 제거되고 있습니다.

이러한 D & C 해결 방법의 기본 논리는 대체로 관찰 및 기능의 부트 스트랩 된 리샘플링에 의존하는 Breiman의 유명한 임의 포리스트 기술의 확장입니다. Breiman은 대량의 데이터가 수십 개의 공연과 수천 개의 기능을 의미했을 때 90 년대 후반 단일 CPU에서 작업했습니다. 오늘날의 대규모 병렬 멀티 코어 플랫폼에서는 몇 시간 만에 수백만 개의 "RF"미니 모델을 구축하는 수천만 개의 기능을 포함하는 테라 바이트 단위의 데이터를 분석하는 알고리즘을 실행할 수 있습니다.

이 모든 것에서 나오는 중요한 질문이 많이 있습니다. 이러한 대안의 근사적인 특성으로 인해 정밀도 손실에 대한 우려와 관련이 있습니다. 이 문제는 Chen과 Xie의 논문 인 매우 큰 데이터 분석을위한 분할 및 정복 접근법 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf 에서 해결되었습니다. 근사치는 "전체 정보"모델과 구별 할 수 없을 정도로 다르다.

내가 아는 한, 문헌에 의해 적절하게 다루어지지 않은 두 번째 관심사는 일단 해결 방법이되면 수백만 개의 예측 가능한 미니 모델의 결과 (예 : "매개 변수")와 관련이 있습니다. 롤업 및 요약되었습니다. 다시 말해, 이러한 결과로 새로운 데이터를 "점수"하는 것만 큼 간단한 것을 어떻게 수행 할 수 있습니까? 미니 모델 계수가 저장 및 저장됩니까? 아니면 단순히 새로운 데이터에서 d & c 알고리즘을 다시 실행합니까?

Kaiser Fung은 자신의 저서 인 Numbers Rule Your World 에서 자신의 경쟁에서 우승 한 사람이 104 개 모델의 앙상블을 제시 할 때 발생하는 딜레마 Netflix에 대해 설명합니다. 승자는 실제로 다른 모든 경쟁사에 비해 MSE를 최소화했지만 영화 추천 시스템에서 사용하는 5 점 리 커트 유형의 등급 척도에서 정확도의 소수 자릿수 향상으로 해석되었습니다. 또한이 모델 앙상블에 필요한 IT 유지 관리 비용은 모델 정확도의 "개선"에서 볼 수있는 비용보다 훨씬 비쌉니다.

그렇다면이 정도의 정보로 "최적화"가 가능한지에 대한 모든 의문이 있습니다. 예를 들어, 물리학 자이자 재무 엔지니어 인 Emmanuel Derman은 그의 저서 My Life as a Quant 에서 적어도 금융 공학에서 최적화가 지속 불가능한 신화라고 제안합니다.

마지막으로, 수많은 기능의 상대적 기능 중요성과 관련된 중요한 질문은 아직 해결되지 않았습니다.

변수 선택의 필요성과 현재의 Epicurean 해결 방법으로 인해 제기 된 새로운 과제에 대한 간단한 답변은 없습니다. 결론은 우리 모두가 현재 데이터 과학자라는 것입니다.

**** 편집 *** 참조

  1. Chattopadhyay I, Lipson H. 2014 데이터 스매싱 : 데이터에서 숨어있는 질서 찾기. JR Soc. 인터페이스 11 : 20140826. http://dx.doi.org/10.1098/rsif.2014.0826

  2. Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan 및 Ziad Obermeyer. 2015. "예측 정책 문제." 미국 경제 검토, 105 (5) : 491-95. DOI : 10.1257 / aer.p20151023

  3. Edge.org, 2014 Annual Question : 은퇴를위한 과학적 아이디어는 무엇입니까? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement

  4. Eric Beinhocker, 경제학의 중대한 변화가 어떻게 오른쪽 토론과 왼쪽 토론을 관련이 없는지, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. 여러 설명의 Epicurus 원리 : 모든 모델을 유지하십시오. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/

  6. NSF, 복잡한 데이터 또는 대규모 데이터 세트에서의 발견 : 공통 통계 테마, 2007 년 10 월 16 일부터 17 일까지 National Science Foundation에서 자금을 지원하는 워크샵 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. 2015 년 10 월 29 일 Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu 및 Jun Yan의 빅 데이터 통계 방법 및 컴퓨팅 논문 http://arxiv.org/pdf/1502.07989.pdf

  8. Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Cambridge University Press의 대규모 데이터 세트 마이닝; 2 판 (2014 년 12 월 29 일) ISBN : 978-1107077232

  9. 큰 표본 공분산 행렬 및 고차원 데이터 분석 (통계 및 확률 수학의 캠브리지 시리즈), Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 판 (2015 년 3 월 30 일) ISBN : 978-1107065178

  10. RICK L. ANDREWS, ANDREW AINSLIE 및 IMRAN S. CURRIM, 이질성에 대한 연속적 표현 대 이산의 로짓 초이스 모델의 경험적 비교, Journal of Marketing Research, 479 Vol. XXXIX (2002 년 11 월), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. Xueying Chen and Minge Xie, DIMACS 기술 보고서 ​​2012-01 년 1 월 1 일 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf

  12. Kaiser Fung, 숫자는 당신의 세계를 지배합니다 : 당신이하는 모든 것에 대한 확률과 통계의 숨겨진 영향, McGraw-Hill Education; 1 판 (2010 년 2 월 15 일) ISBN : 978-0071626538

  13. Emmanuel Derman, Quant으로서의 내 인생 : 물리 및 금융에 대한 고찰, Wiley; 1 판 (2016 년 1 월 11 일) ISBN : 978-0470192733

* 2017 년 11 월 업데이트 *

Nathan Kutz의 2013 년 책, 데이터 중심 모델링 및 과학 계산 : 복잡한 시스템 및 빅 데이터 방법은 치수 선택 방법 및 도구뿐만 아니라 변수 선택에 대한 수학적 및 PDE 중심의 여행입니다. 2017 년 6 월 Youtube 비디오 데이터 기반 동적 시스템 및 PDE 에서 그의 사고에 대한 1 시간 동안의 훌륭한 소개를 볼 수 있습니다 . 그것으로, 그는이 분야의 최신 개발을 언급합니다. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop


1
몇 년 전에 Machine Learning Summer School에서 Google 직원이 연설을했습니다 (이름을 잊어 버렸습니다). 그는 생산에서 2 진 (이진 분류) 모델이 ~ 30 Tb의 데이터 세트에 대해 배치 훈련 된 ~ 2 억 개의 기능과 같은 것을 포함한다고 언급했다. 대부분은 아마도 이진 기능 일 것입니다. 그가 변수 선택을 언급 한 것을 기억하지 못합니다.
horaceT

1
큰 의견 (그것의 일부는 접선을 떠났지만) 특히 빅 데이터 시대에 많은 구식 아이디어가 재시험이 필요하다는 관점이 마음에 듭니다.
horaceT

1
@horaceT 매우 흥미 롭습니다. 적어도 그것은 소문을 확인합니다. 감사. 어떤 ML 프로그램입니까?
Mike Hunter

1
UC Santa Cruz의 MLSS 2012. 스피커는 Tushar Chandra였습니다. 여기 슬라이드가 있습니다. users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf
horaceT

2
@Glen_b 의견을 보내 주셔서 감사합니다. 깨진 링크 문제로 인해 참고 문헌의 이름과 제목을 정확하게 제공했다고 생각했습니다. 어쨌든 끝에 참조 섹션을 추가하겠습니다. 빠진 것이 있으면 알려주세요.
Mike Hunter

14

예측 측면 에서 모델이 중요한 기능 을 얼마나 빨리 학습 하는지 에 대한 문제를 고려해야 할 것입니다. OLS를 생각하더라도 충분한 데이터가 제공되는 모델 선택과 같은 것을 제공합니다. 그러나 우리는 그것이이 솔루션으로 충분히 빨리 수렴되지 않는다는 것을 알고 있습니다. 그래서 우리는 더 나은 것을 검색합니다.

대부분의 방법은 만날 베타 / 계수의 종류 (예 : 베이지안 모델의 이전 분포)에 대해 가정합니다. 이러한 가정이 유지 될 때 가장 잘 작동합니다. 예를 들어, 능선 / lasso 회귀 분석은 대부분의 베타가 거의 0에 가까운 규모로 동일하다고 가정합니다. 대부분의 베타가 0이고 일부 베타가 매우 큰 (즉, 비늘이 매우 큰) "건초 더미의 바늘"회귀에 대해서는 잘 작동하지 않습니다. 기능 선택이 여기에서 더 잘 작동 할 수 있습니다. 올가미는 노이즈 감소와 신호를 그대로 두는 사이에 끼일 수 있습니다. 기능 선택이 더 까다 롭습니다. 효과는 "신호"또는 "노이즈"입니다.

결정 측면에서-어떤 종류의 예측 변수가 있는지에 대한 아이디어가 필요합니다. 당신은 정말 좋은 몇 가지가 있습니까? 아니면 모든 변수가 약합니까? 이것은 당신이 가질 베타의 프로파일을 이끌 것입니다. 그리고 당신이 사용하는 페널티 / 선택 방법들 (코스 말).

피처 선택도 나쁘지는 않지만 계산 제한으로 인한 일부 근사치가 더 이상 좋지 않습니다 (단계적으로, 앞으로). 피처 선택 (성능에 가중치를 둔 모든 1 var 모델, 2 var 모델 등)을 사용한 모델 평균화는 예측에 매우 효과적입니다. 그러나 이것들은 본질적으로 볼록한 최적화 문제가 아닌 직접적으로가 아니라 배제 된 변수를 가진 모델에 주어진 가중치를 통해 베타를 처벌하고 있습니다.


12

나는 당신에게 산업의 관점을 제공합니다.

산업계는 센서 및 모니터링 시스템에 비용을 지출하는 것을 좋아하지 않습니다.

예를 들어, 이름을 지정하고 싶지 않으므로 매 분마다 데이터를 수집하는 10 개의 센서가있는 구성 요소를 상상해보십시오. 자산 소유자가 나와 10 개의 센서 데이터를 사용하여 구성 요소의 동작을 얼마나 잘 예측할 수 있는지 묻습니다. 그런 다음 비용-이익 분석을 수행합니다.

그런 다음 20 개의 센서가있는 동일한 구성 요소가 있으며 20 개의 센서에서 얻은 데이터로 구성 요소의 동작을 얼마나 잘 예측할 수 있습니까? 그들은 또 다른 비용-이익 분석을 수행합니다.

이러한 각 경우에 센서 설치로 인한 투자 비용과 이점을 비교합니다. (이것은 단지 구성 요소에 $ 10 센서를 추가하는 것이 아닙니다. 많은 요인들이 중요한 역할을합니다). 여기에 변수 선택 분석이 유용 할 수 있습니다.


1
좋은 지적. 그러나 20
대의

사실 일부 연구를 기반으로 항상 추측 할 수 있습니다. 장애를 피하기 위해 목표로 각 센서를 설치합니다. 고장률이 낮거나 이미 부품의 주요 부분을 다룬 경우 센서 1 개를 추가해도 큰 수익을 얻지 못할 수 있습니다. 따라서 해당 센서를 설치하고, 데이터를 수집하고, 추가 센서가 실제로 충분한 지 확인하기 위해 연구를 수행 할 필요가 없습니다.
PeyM87

'센서'는 센서를 의미하지 않을 수 있습니다. 우리 회사에서는 모든 데이터를 구독하므로 실제로 기여하지 않는 기능을 발견하고 구독 서비스에서 제거하여 비용을 절감 할 수있는 기회가 있습니다. 구독률은 개별 열보다 높은 수준으로 계산되지만 구독의 요소가 최종 모델에 하나의 기능을 제공하고 성능을 개선하지 않으면 중단 할 수 있음을 상상할 수 있습니다.)
Robert de Graaf

9

순전히 예측 모델을 학습하기위한 알고리즘의 일부로 변수 선택이 반드시 성능 관점에서 나쁘거나 자동으로 위험하지는 않습니다. 그러나 알아야 할 몇 가지 문제가 있습니다.

질문을 좀 더 구체적하려면 이제와 선형 회귀 문제를 생각해 보자 에 대한 , 및 및 인 의 차원 벡터를 변수와 매개 변수. 목적은 함수 근사값을 찾는 것입니다 이는 주어진 의 예측입니다 . 이것은 를 추정함으로써 달성 될 수있다i = 1 , , N X i β p x E ( Y X = x ) = X T β , Y X = x β

E(YiXi)=XiTβ
i=1,,NXiβp
xE(YX=x)=XTβ,
YX=xβ가변적 선택과 벌칙의 유무에 관계없이 손실 함수의 최소화를 조합하여 사용. 모델 평균화 또는 베이지안 방법도 사용될 수 있지만 단일 모델 예측에 중점을 두겠습니다.

전진 및 후진 변수 선택과 같은 단계적 선택 알고리즘은 계산이 어려운 최상의 서브 세트 선택 문제를 해결하려는 대략적인 시도로 볼 수 있습니다. 각 대해 변수가 있는 최상의 (또는 최소한 좋은) 모델을 찾는 데 관심이 있습니다. 이어서 최적화 할 수 있습니다 .k=1,,min(N,p)kk

이러한 변수 선택 절차 의 위험 은 변수 선택에서 많은 표준 분포 결과가 조건부로 유효하지 않다는 것입니다. 이것은 표준 테스트와 신뢰 구간을 유지하며 Harrell [2]가 경고하는 문제 중 하나입니다. Breiman은 또한 The Little Bootstrap ... 에서 Mallows의 를 기반으로 한 모델 선택에 대해 경고했습니다 . Mallows의 또는 그 문제에 대한 AIC 는 모델 선택을 설명 하지 않으며 지나치게 낙관적 인 예측 오류를 제공합니다.CpCp

그러나, 교차 검증은 예측 오차를 추정하고 를 선택하는데 사용될 수 있고 , 변수 선택은 바이어스와 분산 사이의 양호한 균형을 달성 할 수있다. 경우에 특히 그러하다 제로에 가까운 나머지 약간 큰 좌표를 가지고 @probabilityislogic 언급한다.kβ

릿지 회귀 및 올가미와 같은 수축 방법 은 명시적인 변수 선택없이 바이어스와 분산 사이에서 우수한 트레이드 오프를 달성 할 수 있습니다. 그러나 OP에서 언급했듯이 올가미는 암시 적 변수 선택을 수행합니다. 실제로 모델이 아니라 변수 선택을 수행하는 모델을 피팅하는 방법 입니다. 이러한 관점에서 변수 선택 (암시 적 또는 명시 적)은 모델을 데이터에 맞추는 방법의 일부일 뿐이며 그렇게 간주해야합니다.

올가미 추정기를 계산하기위한 알고리즘은 변수 선택 (또는 스크리닝)으로부터 이익을 얻을 수있다. 에서 통계 희소성과 학습 : 올가미와 일반화 , 제 5.10, 그것은이 검사는,에 구현하는 방법을 설명 glmnet유용합니다. 올가미 추정기의 계산 속도가 상당히 빨라질 수 있습니다.

한 가지 개인적인 경험 은 변수 선택을 통해 선택한 변수를 사용하여보다 복잡한 모델 (일반화 된 가산 모델)을 적합하게 만드는 예에서 비롯됩니다. 교차 검증 결과는이 모델이 대안의 수에 우수한 것을 표시 아니지만 임의의 숲. 경우 gamsel이 주변에 있었다 변수 선택과 일반화 된 첨가제 모델을 통합하는 나뿐만 아니라 그것을 밖으로 시도로 간주했을 수 있습니다.

편집 : 이 답변을 썼기 때문에 내가 생각한 특정 응용 프로그램에 대한 논문 이 있습니다. 논문의 결과를 재현하기위한 R 코드를 사용할 수 있습니다.

요약 I는 (하나 개의 형태 또는 다른)에 해당 변수 선택 말이며 유용한 것으로 남아 것 심지어 순수한 목적 예측 바이어스 - 분산 트레이드 오프를 제어하는 방법으로서. 다른 이유가 아니라면 적어도 복잡한 모델은 기본적으로 많은 수의 변수를 처리하지 못할 수 있기 때문입니다. 그러나 시간이 지남에 따라 변수 선택을 추정 방법론에 통합하는 도박과 같은 개발이 자연스럽게 보일 것입니다.

물론 변수 선택을 추정 방법의 일부로 간주하는 것이 항상 필수적입니다. 변수 선택은 오라클처럼 작동하고 올바른 변수 세트를 식별하는 것이 위험합니다. 데이터를 기반으로 변수가 선택되지 않은 것처럼 믿고 진행하면 오류가 발생할 위험이 있습니다.


1
변수 선택이 어떻게 더 복잡한 모델을 적용 할 수 있었는지 확실하지 않습니다. 변수 선택을 사용하면 여전히 많은 수의 매개 변수를 추정합니다. 당신은 단지 그들 중 일부를 0으로 추정하고 있습니다. 변수 선택 후 적합한 조건부 모델의 안정성은 신기루가 될 수 있습니다.
Frank Harrell

1
@Harrell, 특정 예에서, 변수 선택은 모든 변수가 선형으로 입력 된 모델에서 안정성 선택과 조합하여 올가미를 사용하여 수행되었다. 그런 다음 선택한 변수를 사용하여 게임을 장착했습니다. 변수 선택이 일부 매개 변수를 0으로 추정한다는 것에 완전히 동의합니다. 응용 프로그램은 게임 모델에서 2 단계 절차로 정확하게 수행했습니다. 도박이보다 체계적인 접근 방식을 제공한다고 확신합니다. 필자의 요점은 그러한 접근법이 없으면 변수 선택이 유용한 지름길이 될 수 있다는 것이었다.
NRH

1
처벌을받지 않은 방법을 사용하여 이전 처벌 단계에서 선택한 변수를 다시 맞추는 것은 적절하지 않습니다. 그것은 실질적으로 편향 될 것입니다. 그리고 처벌받지 않은 변수 선택은 좋은 지름길이 아닙니다.
Frank Harrell

1
안정성 선택은 올가미를 사용하여 변수를 선택하고 불이익없이 다시 피팅하는 것보다 더 보수적입니다. 후자는 예측 교차점 (교차 검증에 의한 측정)에서 잘 작동하지 않았을 것으로 예상됩니다. 구체적인 경우에 교차 검증을 통해 변수 선택 + gam이 능선 또는 올가미 추정기보다 더 나은 예측 성능을 제공한다는 것을 알면 절차가 좋은지 여부를 측정하는 것입니다.
NRH

1
'안정성 선택'을 정의하십시오. 불이익없이 재 장착하는 것은 보수적이지 않습니다.
Frank Harrell

4

"... k 매개 변수를 n <k 관측치에 맞추는 것은 일어나지 않을 것입니다."

화학량 론에서 우리는 종종 예측 모델에 관심이 있으며 k >> n 상황이 자주 발생합니다 (예 : 분광 데이터). 이 문제는 일반적으로 관측 값을 회귀 이전의 하위 차원 하위 ​​공간 a에 투영하여 간단히 해결합니다 (예 : 주성분 회귀). 부분 최소 제곱 회귀 분석을 사용하면 예측 품질에 유리하게 투영과 회귀가 동시에 수행됩니다. 언급 된 방법은 (단일) 공분산 또는 상관 행렬에 대한, 예를 들어 특이 값 분해에 의한 최적의 의사 역수를 찾는다.

경험에 따르면 노이즈가 많은 변수를 제거하면 다변량 모델의 ​​예측 성능이 향상됩니다. 따라서 우리가 의미있는 방식으로 n 개의 방정식 (n <k) 만있는 k 개의 모수를 추정 할 수 있다고해도, 우리는 parsimonious 모델을 위해 노력합니다. 이를 위해 변수 선택이 적합 해지고 많은 화학 문헌이이 주제에 전념합니다.

예측은 중요한 목표이지만 동시에 프로젝션 방법은 데이터 패턴 및 변수의 관련성에 대한 귀중한 통찰력을 제공합니다. 이는 주로 점수, 하중, 잔차 등과 같은 다양한 모델 플로트로 인해 촉진됩니다.

화학 기술은 예를 들어 신뢰할 수 있고 정확한 예측이 실제로 중요한 산업에서 광범위하게 사용됩니다.


3

몇 가지 잘 알려진 경우에는 변수 선택이 필요하지 않습니다. 이러한 이유로 인해 딥 러닝이 약간 과장되었습니다.

예를 들어, 복잡한 신경망 ( http://cs231n.github.io/convolutional-networks/ )이 중심 이미지에 사람의 얼굴이 포함되어 있는지 예측하려고하면 이미지 모서리에 최소한의 예측 값이있는 경향이 있습니다. 전통적인 모델링과 변수 선택은 모델러가 코너 픽셀을 예측 변수로 제거하도록합니다. 그러나 복잡한 신경망은 이러한 예측자를 자동으로 버릴 수있을만큼 똑똑합니다. 이는 이미지에서 일부 물체의 존재를 예측하려고하는 대부분의 딥 러닝 모델에 해당합니다 (예 : 차선 표시, 장애물 또는 온보드 스트리밍 비디오 프레임의 기타 자동차를 예측하는자가 운전 차량).

딥 러닝은 데이터 세트가 작거나 도메인 지식이 풍부한 경우와 같은 많은 전통적인 문제에 대해 과도하게 사용되므로 전통적인 변수 선택은 아마도 적어도 일부 영역에서 오랫동안 관련성이있을 것입니다. 그럼에도 불구하고 딥 러닝은 최소한의 인간 개입으로 "꽤 좋은"솔루션을 함께 모으고 싶을 때 좋습니다. 수작업으로 이미지를 작성하고 이미지에서 손으로 쓴 숫자를 인식하기 위해 예측자를 선택하는 데 몇 시간이 걸릴 수 있지만, 복잡한 신경망과 변수를 선택하지 않으면 Google의 TensorFlow를 사용하여 20 분 이내에 최신 모델을 사용할 수 있습니다 https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).


3
이 DL 관점이 정말 마음에 듭니다. Computer Vision에서 발생하는 데이터 매트릭스는 평평한 2D 이미지이며, 특정 열의 의미는 관찰에 따라 다릅니다. 예를 들어, 픽셀 번호 147은 이미지 번호 27의 고양이 얼굴 일 수 있지만 이미지 번호 42의 배경 벽입니다. 이것이 ConvNet이 번역 / 회전 불변 인을 내장하고 있기 때문에 강력한 이유입니다.
horaceT
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.