Google이 예측 알고리즘을 구축 할 때 사용 가능한 모든 기능을 사용한다는 소문이 있습니다. 그러나 현재까지이 소문을 명확하게하거나 논박하는 면책, 설명 또는 백서가 나오지 않았습니다. 공개 된 특허조차도 이해에 도움이되지 않습니다. 결과적으로 Google 외부 사용자는 내가 아는 한 자신이 무엇을하고 있는지 알 수 없습니다.
/ * 2019 년 9 월 업데이트 된 Google Tensorflow 전도자는 Google 엔지니어가 현재 버전의 PageRank에 대해 50 억 개가 넘는 매개 변수를 정기적으로 평가한다고 발표했습니다 . * /
OP가 지적한 바와 같이, 예측 모델링에서 가장 큰 문제 중 하나는 고전 가설 테스트와 신중한 모델 사양 대 순수한 데이터 마이닝 간의 상관 관계입니다. 고전적으로 훈련 된 사람들은 모델 설계 및 개발에서 "엄격한"필요성에 대해 상당히 독단적 일 수 있습니다. 사실 많은 수의 후보 예측 변수와 여러 가능한 목표 또는 종속 변수에 직면 할 때 클래식 프레임 워크가 작동하지 않으며 유용한 지침을 제공하지도 않습니다. 최근의 수많은 논문들은 Chattopadhyay와 Lipson의 훌륭한 논문 인 Data Smashing : Lurking Order in Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf 에서이 딜레마를 설명합니다 .
주요 병목 현상은 오늘날 대부분의 데이터 비교 알고리즘이 인간 전문가에 의존하여 비교할 데이터의 '기능'을 지정한다는 것입니다. 여기서 우리는 도메인 지식이나 학습을 사용하지 않고 임의의 데이터 스트림 소스 간의 유사성을 추정하기위한 새로운 원칙을 제안합니다.
작년 AER의 Kleinberg 등의 예측 정책 문제 에 관한 논문 . https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 "경제적 정책 결정에 유용한 도구로 데이터 마이닝 및 예측 사례를 제공합니다. 이는 인과 적 추론이 중심이 아니거나 심지어 필요한 경우를 언급합니다. "
사실 더 큰 64,000 달러짜리 질문은 예를 들어 "폐기 된"과학적 사고에 대한 Edge.org 심포지엄에 내재 된 고전적인 가설 테스트 프레임 워크에 대한 사고와 도전의 광범위한 변화 라는 것입니다. https://www.edge.org/ Eric Beinhocker의 "신 경제학"에 대한 최근 기사뿐만 아니라 응답 / 무엇 과학적 아이디어는 퇴직 준비가 되었으며 행동 경제학, 복잡성 이론, 예측 모델과 같이 광범위하게 다른 분야를 통합하기위한 근본적인 제안을 제시하는 "새로운 경제학" 정책 구현 및 채택을위한 플랫폼으로서의 개발, 네트워크 및 포트폴리오 이론 https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/말할 필요도없이 이러한 문제는 단순한 경제적 문제를 넘어 과학적 패러다임의 근본적인 변화를 겪고 있음을 시사합니다. 쉬프트 전망은 환원 주의적 사이의 차이만큼 기본적인 대략 몇 가지 연구 결과는 무엇인가를 설명하면, 모두 ... 유지한다고 충만 함 또는 여러 설명이 에피쿠로스 '광대 원리 대 모델 구축과 같은 오캄의 면도날 은 https : // EN합니다. wikipedia.org/wiki/Principle_of_plenitude
물론, Beinhocker와 같은 사람들은이 진화하는 패러다임에 적용되는 통계적 솔루션에 대한 참호 문제에 실질적으로 어려움을 겪지 않았습니다. 초고 차원 변수 선택에 대한 아주 중요한 질문에 대해, OP는 가용 한 모든 정보를 사용하는 Lasso, LAR, stepwise algorithms 또는 "elphant models"과 같은 모델 구축에 대한 실행 가능한 접근 방식과 관련하여 상대적으로 구체적이지 않습니다. 실제로는 AWS 나 슈퍼 컴퓨터에서도 사용 가능한 모든 정보를 동시에 사용할 수 없습니다. 모든 정보를로드 할 RAM이 충분하지 않습니다. 이것이 의미하는 바는 무엇입니까? 예를 들어, 복잡한 또는 대규모 데이터 세트에서 NSF의 발견 : 공통 통계 테마대규모 데이터 마이닝을위한 알고리즘 "분할 및 정복"(예 : Wang 등의 논문, 통계 분석 및 빅 데이터에 대한 설문 조사) http://arxiv.org/pdf/1502.07989.pdf 및 Leskovec 등 책 대규모 데이터 세트의 광업 http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
이러한 도전 과제의 다양한 측면을 다루는 수천 개의 논문이 아니라면 문자 그대로 수백 개의 논문이 있으며, 모두 "분할 및 정복"알고리즘에서 핵심으로 다양한 분석 엔진을 제안합니다. 감독되지 않은 "딥 러닝"모델; 대규모 공분산 구성에 적용되는 랜덤 매트릭스 이론; 베이지안 텐서 모델에서 클래식, 감독 된 로지스틱 회귀 등 15 년 전, 논쟁은 대체로 계층 적 베이지안 솔루션과 잦은 유한 혼합 모델의 상대적인 장점에 관한 질문에 초점을 맞췄습니다. 이러한 문제를 다루는 논문에서 Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfHB 모델이 유리한 곳에서 희소 및 / 또는 고차원 데이터와 관련된 문제를 제외하고는 실제로 이론적으로 다른 이론적 접근법이 거의 동등한 결과를 낳았다는 결론에 도달했다. 오늘날 D & C 해결 방법이 등장하면서 역사적으로 즐겼던 모든 차익 거래 HB 모델이 제거되고 있습니다.
이러한 D & C 해결 방법의 기본 논리는 대체로 관찰 및 기능의 부트 스트랩 된 리샘플링에 의존하는 Breiman의 유명한 임의 포리스트 기술의 확장입니다. Breiman은 대량의 데이터가 수십 개의 공연과 수천 개의 기능을 의미했을 때 90 년대 후반 단일 CPU에서 작업했습니다. 오늘날의 대규모 병렬 멀티 코어 플랫폼에서는 몇 시간 만에 수백만 개의 "RF"미니 모델을 구축하는 수천만 개의 기능을 포함하는 테라 바이트 단위의 데이터를 분석하는 알고리즘을 실행할 수 있습니다.
이 모든 것에서 나오는 중요한 질문이 많이 있습니다. 이러한 대안의 근사적인 특성으로 인해 정밀도 손실에 대한 우려와 관련이 있습니다. 이 문제는 Chen과 Xie의 논문 인 매우 큰 데이터 분석을위한 분할 및 정복 접근법 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf 에서 해결되었습니다. 근사치는 "전체 정보"모델과 구별 할 수 없을 정도로 다르다.
내가 아는 한, 문헌에 의해 적절하게 다루어지지 않은 두 번째 관심사는 일단 해결 방법이되면 수백만 개의 예측 가능한 미니 모델의 결과 (예 : "매개 변수")와 관련이 있습니다. 롤업 및 요약되었습니다. 다시 말해, 이러한 결과로 새로운 데이터를 "점수"하는 것만 큼 간단한 것을 어떻게 수행 할 수 있습니까? 미니 모델 계수가 저장 및 저장됩니까? 아니면 단순히 새로운 데이터에서 d & c 알고리즘을 다시 실행합니까?
Kaiser Fung은 자신의 저서 인 Numbers Rule Your World 에서 자신의 경쟁에서 우승 한 사람이 104 개 모델의 앙상블을 제시 할 때 발생하는 딜레마 Netflix에 대해 설명합니다. 승자는 실제로 다른 모든 경쟁사에 비해 MSE를 최소화했지만 영화 추천 시스템에서 사용하는 5 점 리 커트 유형의 등급 척도에서 정확도의 소수 자릿수 향상으로 해석되었습니다. 또한이 모델 앙상블에 필요한 IT 유지 관리 비용은 모델 정확도의 "개선"에서 볼 수있는 비용보다 훨씬 비쌉니다.
그렇다면이 정도의 정보로 "최적화"가 가능한지에 대한 모든 의문이 있습니다. 예를 들어, 물리학 자이자 재무 엔지니어 인 Emmanuel Derman은 그의 저서 My Life as a Quant 에서 적어도 금융 공학에서 최적화가 지속 불가능한 신화라고 제안합니다.
마지막으로, 수많은 기능의 상대적 기능 중요성과 관련된 중요한 질문은 아직 해결되지 않았습니다.
변수 선택의 필요성과 현재의 Epicurean 해결 방법으로 인해 제기 된 새로운 과제에 대한 간단한 답변은 없습니다. 결론은 우리 모두가 현재 데이터 과학자라는 것입니다.
**** 편집 ***
참조
Chattopadhyay I, Lipson H. 2014 데이터 스매싱 : 데이터에서 숨어있는 질서 찾기. JR Soc. 인터페이스 11 : 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan 및 Ziad Obermeyer. 2015. "예측 정책 문제." 미국 경제 검토, 105 (5) : 491-95. DOI : 10.1257 / aer.p20151023
Edge.org, 2014 Annual Question : 은퇴를위한 과학적 아이디어는 무엇입니까?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, 경제학의 중대한 변화가 어떻게 오른쪽 토론과 왼쪽 토론을 관련이 없는지, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
여러 설명의 Epicurus 원리 : 모든 모델을 유지하십시오. Wikipedia
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, 복잡한 데이터 또는 대규모 데이터 세트에서의 발견 : 공통 통계 테마, 2007 년 10 월 16 일부터 17 일까지 National Science Foundation에서 자금을 지원하는 워크샵
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
2015 년 10 월 29 일 Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu 및 Jun Yan의 빅 데이터 통계 방법 및 컴퓨팅 논문
http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Cambridge University Press의 대규모 데이터 세트 마이닝; 2 판 (2014 년 12 월 29 일) ISBN : 978-1107077232
큰 표본 공분산 행렬 및 고차원 데이터 분석 (통계 및 확률 수학의 캠브리지 시리즈), Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 판 (2015 년 3 월 30 일) ISBN : 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE 및 IMRAN S. CURRIM, 이질성에 대한 연속적 표현 대 이산의 로짓 초이스 모델의 경험적 비교, Journal of Marketing Research, 479 Vol. XXXIX (2002 년 11 월), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Xueying Chen and Minge Xie, DIMACS 기술 보고서 2012-01 년 1 월 1 일
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, 숫자는 당신의 세계를 지배합니다 : 당신이하는 모든 것에 대한 확률과 통계의 숨겨진 영향, McGraw-Hill Education; 1 판 (2010 년 2 월 15 일) ISBN : 978-0071626538
Emmanuel Derman, Quant으로서의 내 인생 : 물리 및 금융에 대한 고찰, Wiley; 1 판 (2016 년 1 월 11 일) ISBN : 978-0470192733
* 2017 년 11 월 업데이트 *
Nathan Kutz의 2013 년 책, 데이터 중심 모델링 및 과학 계산 : 복잡한 시스템 및 빅 데이터 방법은 치수 선택 방법 및 도구뿐만 아니라 변수 선택에 대한 수학적 및 PDE 중심의 여행입니다. 2017 년 6 월 Youtube 비디오 데이터 기반 동적 시스템 및 PDE 에서 그의 사고에 대한 1 시간 동안의 훌륭한 소개를 볼 수 있습니다 . 그것으로, 그는이 분야의 최신 개발을 언급합니다. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop