이것은 효율적인 온라인 선형 회귀 에서 영감을 얻었으며 매우 흥미 롭습니다. 대규모 통계 컴퓨팅에 전념하는 텍스트 나 리소스가 있습니까? 이로 인해 주 메모리에 맞지 않는 데이터 세트를 사용하여 컴퓨팅하거나 효과적으로 서브 샘플링하기에는 너무 다양합니다. 예를 들어 온라인 방식으로 혼합 효과 모델을 적용 할 수 있습니까? MLE에 대한 표준 2 차 최적화 기술을 1 차 SGD 유형 기술로 대체하는 효과를 살펴본 사람이 있습니까?
대답은 "예"라고 생각합니다. 물론 여기에는 약간의 정의 문제가 있습니다. 한 사람이 "대규모"로 간주하는 것은 때때로 다른 사람과 매우 다릅니다. 예를 들어 많은 학계 연구자들이 Netflix 데이터 세트를 "대규모"로 간주하지만 많은 산업 환경에서는 "거짓말"로 간주됩니다. 일반적으로 매우 큰 데이터를 사용하는 추정 기술과 관련하여 계산 효율성은 통계 효율성보다 우선합니다. 예를 들어, 많은 경우 모멘트 방법은 이러한 설정에서 MLE뿐만 아니라 (거의) 수행 할 수 있으며 계산하기 가 훨씬 쉽습니다.
—
추기경
최신 대량 데이터 세트 (MMDS) 알고리즘에 대한 워크숍을 찾아 볼 수도 있습니다. 젊지 만 통계, 공학 및 컴퓨터 과학의 인터페이스뿐만 아니라 학계와 산업 간의 인터페이스에서 매우 인상적인 스피커 세트를 그립니다.
—
추기경
대부분의 데이터 세트가 너무 커서 주 메모리에 맞추기에는 수십 년이 걸리고 초기 통계 프로그램에 사용 된 알고리즘의 선택이이를 반영했습니다. 그러나 이러한 프로그램에는 혼합 효과 모델을위한 시설이 없었습니다.
—
onestop
데이터 세트에 대한 통계를 계산할 수 있습니까? 예를 들어 합계 또는 평균 데이터 항목?
—
확률