hadoop / map-reduce를 사용하여 확장 할 수있는 기계 학습 알고리즘


9

확장 가능한 머신 러닝 알고리즘은 요즘 유행하는 것처럼 보입니다. 모든 회사는 큰 데이터를 처리하지 않습니다 . Map-Reduce와 같은 병렬 아키텍처를 사용하여 어떤 머신 러닝 알고리즘을 확장 할 수 있는지, 어떤 알고리즘을 사용할 수 없는지에 대한 교과서가 있습니까? 아니면 관련 논문?

답변:



4

온라인 그라디언트 하강 학습에 중점을 둔 매우 빠른 머신 러닝 프로그램 인 Vowpal Wabbit는 Hadoop과 함께 사용할 수 있습니다. http://arxiv.org/abs/1110.4198 그러나 나는 이런 식으로 사용한 적이 없습니다. 올바르게 이해하면 실제로 신뢰성을 높이고 Vowpal Wabbit 프로세스에 데이터를 제공하기 위해 Hadoop 만 사용합니다. 대부분의 통신을 수행하기 위해 MPI의 AllReduce와 같은 것을 사용합니다.


4

지미 린 (Jimmy Lin)과 크리스 다이어 (Chris Dyer)가 자신의 저서에서 MapReduce를 사용한 데이터 집중 텍스트 마이닝 (Data-Intensive Text Mining) 에 관한 첫 장에서 지적한 것처럼 , 대규모 데이터 규모에서 다양한 알고리즘의 성능이 수렴하여 성능 차이가 사실상 사라집니다. 이것은 충분히 큰 데이터 세트가 주어지면 사용하려는 알고리즘이 계산 비용이 적게 드는 알고리즘임을 의미합니다. 알고리즘 간의 성능 차이가 중요한 것은 데이터 규모가 작을뿐입니다.

즉, Anand Rajaraman, Jure Leskovec 및 Jeffrey D. Ullman 의 저서 (위 링크 됨) 및 대규모 데이터 세트 마이닝은 특히 MapReduce와 직접 관련이있는 두 가지 책입니다. 데이터 마이닝 목적으로.


1
".. 대규모로 다른 알고리즘의 성능이 수렴됩니다 ..."나는 이것을 몰랐습니다. 이 유용한 통찰력에 감사드립니다. 또한 "Mining of Massive Datasets"를 우연히 발견하여 매우 유용했습니다. 다른 책도 볼 것이다.
Nik


1

아무도 다음 논문을 언급하지 않았습니다 -http : //papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng는 저자 중 하나입니다)

이 논문 자체는 멀티 코어 머신을위한 것이지만, 본질적으로 맵-리 듀스 패턴에 맞도록 머신 러닝 문제를 다시 캐스팅하는 것에 관한 것이며 컴퓨터 클러스터에 사용될 수 있습니다. (이것이 일반적으로 좋지 않은 이유를 보려면이 백서를 읽으십시오 -http : //arxiv.org/pdf/1006.4990v1.pdf . 좋은 개요가 있습니다).


또한 Mahout은 내가 언급 한 Andrew Ng 논문을 구현하려는 시도였습니다.
user48654

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.