예를 들어 인프라 스택 / 워크 플로우 / 파이프 라인


14

hadoop, monogodb / nosql, storm, kafka와 같은 실제 사용 사례에서 모든 "빅 데이터"구성 요소가 함께 작동하는 방식을 이해하려고 노력 중입니다. ... 앱, 웹앱, 온라인 상점에 대한 머신 러닝 학습과 같은 애플리케이션에서의 상호 작용에 대해 더 자세히 알고 싶습니다.

나는 vistors / session, transaction data 등을 가지고 있고 그것을 저장한다; 그러나 즉시 추천을하고 싶다면 내가 가지고있는 큰 로그 데이터베이스에서 느린 맵 / 축소 작업을 실행할 수 없습니다. 인프라 측면에 대한 자세한 정보는 어디서 얻을 수 있습니까? 나는 대부분의 도구를 스스로 사용할 수 있다고 생각하지만 서로 연결하는 것은 그 자체의 예술인 것 같습니다.

공개 사례 / 사용 사례 등이 있습니까? 개별 파이프 라인은 사용 사례와 사용자에 따라 크게 다르지만 예제는 나에게 매우 유용 할 것입니다.


이것에 대해 조사 했습니까?
Stanpol

1
Hey Stanpol, 귀하의 답변에 감사드립니다. 초기 검색을 수행했지만 실제로 AWS 및 Cloudera 이외의 항목을 찾지 못했습니다. 어쩌면 유망한 검색어를 제공해 주시면 기꺼이 받아 들일 것입니다.
chrshmmmr 2016 년

답변:


14

머신 러닝을 프로덕션 응용 프로그램에 통합 할 수있는 다양한 방법을 이해하려면 인프라를 설명하는 회사의 오픈 소스 프로젝트와 논문 / 블로그 게시물을 보는 것이 유용하다고 생각합니다.

이러한 시스템의 공통 주제는 모델 응용 프로그램에서 모델 교육을 분리하는 것입니다. 생산 시스템에서, 모델 적용은 100ms의 속도로 빨라야하지만, 적합 모델 파라미터 (또는 이와 동등한)를 얼마나 자주 업데이트해야하는지에 대한 자유가 더 많습니다.

사람들은 모델 교육 및 배포를 위해 광범위한 솔루션을 사용합니다.


7

복잡한 분석 파이프 라인을 설정하는 가장 상세하고 명확한 설명 중 하나는 Twitch 의 사람들 입니다.
수집, 운송, 조정, 처리, 저장 및 데이터 쿼리에 대한 각 아키텍처 선택에 대한 자세한 동기를 부여합니다.
설득력있는 독서! 여기여기에서 찾으 십시오 .


정확히 내가 찾던 것이 굉장합니다! 고마워 :)
chrshmmmr

@chrshmmmr 천만에요. 도움이 되었으면 승인 / 승인을 표시하는 것을 잊지 마십시오!
tchakravarty

3
이 링크는 실제로 매우 유용 해 보이지만 다시 링크입니다. 외부 소스의 안정성과 무관하게 답변을 유지하기 위해 노력해야한다고 생각합니다. 따라서 예를 들어이 링크 의 다이어그램을 추가 하고 빠른 설명과 함께 게시하는 데 2 ~ 3 분 정도 걸릴 수 있다면 좋을 것 입니다. "예를 들어, 이것은 시스템의 워크 플로우입니다. <img>. 자세한 정보는 <link>에서 찾을 수 있습니다."
Rubens

1
@Rubens 나는 약간의 편집을 제안합니다. fgnu : 그렇게 할 것입니다. 실제로 답을 공표하기 위해서는 좀 더 명성이 필요하지만, 저는 당신의 공헌을 존중할 것입니다 :)
chrshmmmr

@Rubens 그것은 링크에서 정보를 재현하는 것 이상입니다. 나는 이미 거기에 주어진 설명에 추가 할 것이라고 느낀 것이 있으면 좋겠다.
tchakravarty


1

R의 실용 데이터 과학 1 장 ( http://www.manning.com/zumel/ )은 팀 역할 및 특정 작업과의 관계를 포함하여 데이터 과학 프로세스를 크게 분석했습니다. 이 책은이 단계 또는 특정 작업이 수행 될 단계 / 인원을 참조하여 장에 제시된 모델을 따릅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.