hadoop / map-reduce를 사용하여 확장 할 수있는 기계 학습 알고리즘

9

확장 가능한 머신 러닝 알고리즘은 요즘 유행하는 것처럼 보입니다. 모든 회사는 큰 데이터를 처리하지 않습니다 . Map-Reduce와 같은 병렬 아키텍처를 사용하여 어떤 머신 러닝 알고리즘을 확장 할 수 있는지, 어떤 알고리즘을 사용할 수 없는지에 대한 교과서가 있습니까? 아니면 관련 논문?

machine-learning large-data

— 니크
소스

5

Mahout in Action은 Mahout ( http://manning.com/owen/ ) 에서 읽을 수있는 좋은 책 입니다. 물론이 웹 사이트에는 다루는 알고리즘에 대한 개요가 있습니다 ( http://mahout.apache.org/ ).

— 아마도
소스

4

온라인 그라디언트 하강 학습에 중점을 둔 매우 빠른 머신 러닝 프로그램 인 Vowpal Wabbit는 Hadoop과 함께 사용할 수 있습니다. http://arxiv.org/abs/1110.4198 그러나 나는 이런 식으로 사용한 적이 없습니다. 올바르게 이해하면 실제로 신뢰성을 높이고 Vowpal Wabbit 프로세스에 데이터를 제공하기 위해 Hadoop 만 사용합니다. 대부분의 통신을 수행하기 위해 MPI의 AllReduce와 같은 것을 사용합니다.

— ektrules
소스

4

지미 린 (Jimmy Lin)과 크리스 다이어 (Chris Dyer)가 자신의 저서에서 MapReduce를 사용한 데이터 집중 텍스트 마이닝 (Data-Intensive Text Mining) 에 관한 첫 장에서 지적한 것처럼 , 대규모 데이터 규모에서 다양한 알고리즘의 성능이 수렴하여 성능 차이가 사실상 사라집니다. 이것은 충분히 큰 데이터 세트가 주어지면 사용하려는 알고리즘이 계산 비용이 적게 드는 알고리즘임을 의미합니다. 알고리즘 간의 성능 차이가 중요한 것은 데이터 규모가 작을뿐입니다.

즉, Anand Rajaraman, Jure Leskovec 및 Jeffrey D. Ullman 의 저서 (위 링크 됨) 및 대규모 데이터 세트 마이닝은 특히 MapReduce와 직접 관련이있는 두 가지 책입니다. 데이터 마이닝 목적으로.

— 리차드 D
소스

1

".. 대규모로 다른 알고리즘의 성능이 수렴됩니다 ..."나는 이것을 몰랐습니다. 이 유용한 통찰력에 감사드립니다. 또한 "Mining of Massive Datasets"를 우연히 발견하여 매우 유용했습니다. 다른 책도 볼 것이다.

— Nik

2

하둡 클러스터에 액세스 할 수 있다면 Spark에 살펴볼 것입니다. https://spark.apache.org/

— 부엉이
소스

: MLlib 스칼라, 자바, 파이썬, 및 R의 예제와 함께 스파크에 대한 분산 기계 학습 알고리즘의 숫자가 포함되어 spark.apache.org/docs/latest/ml-guide.html

— 바딤 Smolyakov

1

아무도 다음 논문을 언급하지 않았습니다 -http : //papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng는 저자 중 하나입니다)

이 논문 자체는 멀티 코어 머신을위한 것이지만, 본질적으로 맵-리 듀스 패턴에 맞도록 머신 러닝 문제를 다시 캐스팅하는 것에 관한 것이며 컴퓨터 클러스터에 사용될 수 있습니다. (이것이 일반적으로 좋지 않은 이유를 보려면이 백서를 읽으십시오 -http : //arxiv.org/pdf/1006.4990v1.pdf . 좋은 개요가 있습니다).

— 사용자
소스

또한 Mahout은 내가 언급 한 Andrew Ng 논문을 구현하려는 시도였습니다.

— user48654

0

기계 학습 확장 : 병렬 및 분산 접근 방식은 John Langford 등의 훌륭한 책입니다. 알. 감독 및 비지도 알고리즘의 병렬 구현에 대해 설명합니다. MapReduce, 의사 결정 트리 앙상블, 병렬 K- 평균, 병렬 SVM, 신념 전파 및 AD-LDA에 대해 설명합니다.

https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242

— 바딤 스몰 리아 코프
소스