온라인으로 확장 가능한 통계 방법


12

이것은 효율적인 온라인 선형 회귀 에서 영감을 얻었으며 매우 흥미 롭습니다. 대규모 통계 컴퓨팅에 전념하는 텍스트 나 리소스가 있습니까? 이로 인해 주 메모리에 맞지 않는 데이터 세트를 사용하여 컴퓨팅하거나 효과적으로 서브 샘플링하기에는 너무 다양합니다. 예를 들어 온라인 방식으로 혼합 효과 모델을 적용 할 수 있습니까? MLE에 대한 표준 2 차 최적화 기술을 1 차 SGD 유형 기술로 대체하는 효과를 살펴본 사람이 있습니까?


대답은 "예"라고 생각합니다. 물론 여기에는 약간의 정의 문제가 있습니다. 한 사람이 "대규모"로 간주하는 것은 때때로 다른 사람과 매우 다릅니다. 예를 들어 많은 학계 연구자들이 Netflix 데이터 세트를 "대규모"로 간주하지만 많은 산업 환경에서는 "거짓말"로 간주됩니다. 일반적으로 매우 큰 데이터를 사용하는 추정 기술과 관련하여 계산 효율성은 통계 효율성보다 우선합니다. 예를 들어, 많은 경우 모멘트 방법은 이러한 설정에서 MLE뿐만 아니라 (거의) 수행 할 수 있으며 계산하기 가 훨씬 쉽습니다.
추기경

2
최신 대량 데이터 세트 (MMDS) 알고리즘에 대한 워크숍을 찾아 볼 수도 있습니다. 젊지 만 통계, 공학 및 컴퓨터 과학의 인터페이스뿐만 아니라 학계와 산업 간의 인터페이스에서 매우 인상적인 스피커 세트를 그립니다.
추기경

대부분의 데이터 세트가 너무 커서 주 메모리에 맞추기에는 수십 년이 걸리고 초기 통계 프로그램에 사용 된 알고리즘의 선택이이를 반영했습니다. 그러나 이러한 프로그램에는 혼합 효과 모델을위한 시설이 없었습니다.
onestop

데이터 세트에 대한 통계를 계산할 수 있습니까? 예를 들어 합계 또는 평균 데이터 항목?
확률

답변:


5

Yahoo!의 John Langford에서 Vowpal Wabbit 프로젝트를 살펴볼 수 있습니다. 연구. 몇 가지 손실 함수에 대해 특수 그라데이션 하강을 수행하는 온라인 학습자입니다. 폭스 바겐에는 몇 가지 킬러 기능이 있습니다.

  • "sudo apt-get install vowpal-wabbit"로 우분투에 간단하게 설치합니다.
  • 엄청나게 큰 기능 공간에 해싱 트릭 을 사용합니다 .
  • 기능별 적응 형 가중치.
  • 가장 중요한 것은 활성 메일 링리스트 와 커뮤니티가 프로젝트에 연결되어 있다는 것입니다.

Bianchi & Lugosi의 Prediction, Learning and Games 책 은 온라인 학습에 견실하고 이론적 인 기초를 제공합니다. 많이 읽었지만 그만한 가치가 있습니다!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.