답변:
Mahout in Action은 Mahout ( http://manning.com/owen/ ) 에서 읽을 수있는 좋은 책 입니다. 물론이 웹 사이트에는 다루는 알고리즘에 대한 개요가 있습니다 ( http://mahout.apache.org/ ).
온라인 그라디언트 하강 학습에 중점을 둔 매우 빠른 머신 러닝 프로그램 인 Vowpal Wabbit는 Hadoop과 함께 사용할 수 있습니다. http://arxiv.org/abs/1110.4198 그러나 나는 이런 식으로 사용한 적이 없습니다. 올바르게 이해하면 실제로 신뢰성을 높이고 Vowpal Wabbit 프로세스에 데이터를 제공하기 위해 Hadoop 만 사용합니다. 대부분의 통신을 수행하기 위해 MPI의 AllReduce와 같은 것을 사용합니다.
지미 린 (Jimmy Lin)과 크리스 다이어 (Chris Dyer)가 자신의 저서에서 MapReduce를 사용한 데이터 집중 텍스트 마이닝 (Data-Intensive Text Mining) 에 관한 첫 장에서 지적한 것처럼 , 대규모 데이터 규모에서 다양한 알고리즘의 성능이 수렴하여 성능 차이가 사실상 사라집니다. 이것은 충분히 큰 데이터 세트가 주어지면 사용하려는 알고리즘이 계산 비용이 적게 드는 알고리즘임을 의미합니다. 알고리즘 간의 성능 차이가 중요한 것은 데이터 규모가 작을뿐입니다.
즉, Anand Rajaraman, Jure Leskovec 및 Jeffrey D. Ullman 의 저서 (위 링크 됨) 및 대규모 데이터 세트 마이닝은 특히 MapReduce와 직접 관련이있는 두 가지 책입니다. 데이터 마이닝 목적으로.
하둡 클러스터에 액세스 할 수 있다면 Spark에 살펴볼 것입니다. https://spark.apache.org/
아무도 다음 논문을 언급하지 않았습니다 -http : //papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng는 저자 중 하나입니다)
이 논문 자체는 멀티 코어 머신을위한 것이지만, 본질적으로 맵-리 듀스 패턴에 맞도록 머신 러닝 문제를 다시 캐스팅하는 것에 관한 것이며 컴퓨터 클러스터에 사용될 수 있습니다. (이것이 일반적으로 좋지 않은 이유를 보려면이 백서를 읽으십시오 -http : //arxiv.org/pdf/1006.4990v1.pdf . 좋은 개요가 있습니다).
기계 학습 확장 : 병렬 및 분산 접근 방식은 John Langford 등의 훌륭한 책입니다. 알. 감독 및 비지도 알고리즘의 병렬 구현에 대해 설명합니다. MapReduce, 의사 결정 트리 앙상블, 병렬 K- 평균, 병렬 SVM, 신념 전파 및 AD-LDA에 대해 설명합니다.
https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242