머신 러닝 알고리즘 학습 : 이해 수준과 알고리즘 수


13

최근에 나는 데이터 과학 분야 (약 6 개월)를 소개 받았으며, Andrew Ng의 머신 러닝 과정과 JHU의 데이터 과학 전문 분야에 대한 연구를 시작했습니다.

실질적인 응용 분야에서 저는 마모를 예측하는 예측 모델을 작성하는 작업을 진행했습니다. 지금까지 이러한 방법을 배우고 적용하기 위해 glm, bayesglm, rf를 사용했지만 이러한 알고리즘을 이해하는 데 많은 차이가 있습니다.

나의 기본적인 딜레마는 :

몇 가지 알고리즘의 복잡성을 배우는 데 더 집중해야하는지 또는 필요한만큼 그리고 언제, 그리고 많은 알고리즘을 알고 있어야 하는가?

책이나 기사 또는 도움이 될만한 것을 제안하여 올바른 방향으로 안내해주십시오.

데이터 과학 분야에서 경력을 시작했으며 비즈니스 세계의 실질적인 문제를 해결하는 사람이되고 싶어하는 사람을 안내한다는 아이디어로 답장을 보내면 감사하겠습니다.

나는이 글에서 제안한 자료 (책, 기사)를 (가능한 한 많이) 읽었으며, 비슷한 질문을 겪는 사람들에게 유용한 글을 만들기 위해 같은 장단점에 대한 개인적인 피드백을 제공 할 것이다. 앞으로이 책을 제안하는 사람들이 똑같이 할 수 있다면 좋을 것 같습니다.

답변:


9

나는 시도하고 신뢰할 수있는 몇 가지 알고리즘으로 자신을 제한하는 것이 좋습니다. 통계 학습의 요소 (첫 번째 책)는 권장하지 않습니다. X 나 Y를 증명하는 방법을 연습하는 대학원생들을 대상으로하는 이론적 인 것은 너무 이론적입니다. ISL 이 더 실용적인 조언과 함께 더 적절 하다고 생각 합니다.

통계 외에도 실험 설계 / AB 테스트와 비즈니스 인텔리전스 / 비주얼 리에 익숙해 지도록하겠습니다.


MISS ON해서는 안되는 알고리즘을 제안하거나 실제 비즈니스 문제를 해결하는 데 가장 유용하다고 말하는 것이 좋습니다. 가능하다면 (책, 자기 계발 기사 또는 시행 착오를

2
ISL의 거의 모든 알고리즘을 선형 회귀, 로지스틱 회귀, 트리 기반 방법, SVM; 클러스터링 및 차원 축소 (예 : PCA) 이 책을 살펴보고 해당 온라인 과정을 살펴보십시오 ( online.stanford.edu/course/statistical-learning-winter-2014- 아마도 YouTube일까요?).
seanv507

위대한 자원, 저자 스스로 같은 책과 비디오를 가지고 있기에 좋습니다. 링크에 대해 감사합니다. 이것을 알지 못했습니다.
Vinay Tiwari

미안하지만 이것은 끔찍한 조언입니다. 데이터 과학자는 몇 가지 알고리즘에 의존해서는 안됩니다. 데이터 및 분석 기술에 의존해야하며 두 가지 데이터 문제는 비슷하지 않습니다. 일부는 X로, 다른 하나는 Y로 해결됩니다. 데이터 유니버스가 소수의 알고리즘에 적용되는 것을 기대하는 것은 합리적이지 않습니다. 궁금한 점이 아니라 호기심, 융통성, 지식이 풍부하고 업무에 적합한 도구를 사용하십시오.
I_Play_With_Data

5

데이터 과학자라고 부르는 사람은 자신이 사용하는 알고리즘의 복잡성에 대해 더 많이 알아야합니다. 최대 가능성 솔루션이 발견 될 것입니다 (아마도 커피를 마신 후). 어쨌든 통계 및 머신 러닝의 일반적인 개념을 이해하는 것은 사용하는 방법, 즉 이론, 가정, 수행 할 진단 점검, 결과 해석 방법에 대한 지식과 더불어 중요합니다. 이 패러디 인 것을 피하십시오 .

당신은 아마 읽는 즐길 것 Hastie 등을. (2009), 통계 학습의 요소 .


반드시 읽을 것입니다! 마지막 줄을 정말로 좋아했습니다 ... 저는 최대한 빨리 결과를 얻으려는 욕구와 압력이 종종 그러한 패러디로 이어진다 고 생각합니다. 그리고이 문제의 반대를 피하는 것도 마찬가지로 중요합니다. 여기서는 학습에 깊이 들어가서 실제 문제에 쓸모 없게됩니다. 하지 말아야 할 것을 아는 것이 성장 / 학습을하는 것이 더 중요하지만, 비슷한 여정에서 나와 다른 사람들에게 더 많은 통찰력을 줄 수있는 더 많은 통찰력을 얻을 수 있기를 바랍니다.

"GLM에서 Fisher 스코어링 알고리즘의 수렴 속도에 영향을주는 것은 무엇입니까?"-여기에서 데이터 과학자의 99 %를 잃어버린 것 같습니다.

@ 모모 : 글쎄, "데이터 과학자"는 평가 절하하기 전에 통화를 거의 얻지 못한 별표가없는 용어 중 하나입니다.
Scortchi-복원 모니카

2

글쎄, 나는 1 또는 2 개의 알고리즘의 복잡한 것을 아는 것이 (그들의 매개 변수의 내부 작동과 같은) 분명히 많은 것을 실행하는 방법을 아는 것보다 낫습니다.

약 11 년 동안 웹 로그 분석 영역에 있었고 2.5 년 동안 데이터 과학자로 근무했으며 경험을 통해 이야기하고 있습니다. 반면에, 문제에 더 적용 할 수있는 다른 것들 (딥 러닝, SVM, XGboost 등의 최신 알고리즘)을 확실히 알고 있어야합니다.

Andrew Ng 박사의 과정은 일부 알고리즘에 대해 상당히 자세히 설명되어 있으며 좋은 시작이라고 생각합니다. 다른 사람들이 지적했듯이 http://statweb.stanford.edu/~tibs/ElemStatLearn/ 은 좋은 책이며 함께 갈 비디오가 있습니다.

이것은 내 개인적인 견해이며, 놓치지 말아야 할 알고리즘은 다음과 같습니다.

1) 다중 선형 회귀 분석 2) 로지스틱 회귀 분석 3) PCA와 같은 차원 축소 기법 4) K- 평균 군집화 5) 비선형 회귀 분석 6) 최적화 방법 : 기울기 기반 검색 방법, 선형 프로그래밍 및 이산 최적화 7) 개념 및 알고리즘 피처 엔지니어링 8) 간단한 시계열 예측 방법

더 난해한 알고리즘 :

1) 랜덤 포레스트 2) SVM 3) 딥 러닝 4) LDA와 같은 다른 차원 축소 방법 5) 기타 커널 기반 방법 6) 유전자 알고리즘 7) XgBoost 8) 동적 회귀 9) GARCH / ARCH 방법 10) 구조 방정식 모델링 11) 시계열 예측의 Box Jenkins 방법 12) 정보 이론 : 정보 이득, 상호 이득 등


0

나는 비슷한 상황에 있었다. 나는 여기에서 (그리고 자세하게) 각각의 모든 알고리즘으로 시작했습니다.

여기에 이미지 설명을 입력하십시오

그러나 머지 않아 기계 / 딥 러닝의 학계가 실제로 빠르게 움직이고 있으며, 많은 실제 응용 프로그램에서 기존 알고리즘을 능가하는 먼 길을가는 더 빠른 최신 알고리즘이 항상 등장하고 있음을 알게되었습니다. . 따라서 항상 최신 트렌드로 업데이트하는 것이 좋습니다. 나는 (보통 내가하는 것처럼) 좋은 뉴스 피드 (Medium과 같은) 나 놀라운 최신 연구 일지를 구독하고 그것을 따라 가도록 제안한다. 여러 번 놀라운 알고리즘은 특정 문제 (아마도 당신과 비슷한)를 다루는 연구 논문에서 나옵니다.

요점은 훌륭한 데이터 과학가 (또는 ML 엔지니어)가되기 위해서는 깊이와 너비의 혼합이 필요하다는 것입니다. 나는 개인적으로 표면에 많은 알고리즘을 알고있는 것이 유용하다는 것을 알았습니다 (간단히 그들이하는 일, 사용되는 시간, 장단점). 나는 그들이 특정 문제를 해결하는 데 도움이 될 수 있다고 느낄 때 그들에게 돌아갑니다 . 나는 그것들을 자세히 읽고 그들이 잘 맞는지 봅니다. 그들은 할 수도 있고 아닐 수도 있습니다. 그러나 세부 사항에 대한 생각은 해당 접근 방식에 대한 통찰력이 없기 때문에 문제에 대한 놀라운 접근 방식을 놓치지 않도록 필수적입니다. 예를 들어, 일단 객체 감지가 필요한 무언가를 연구하고 있었을 때 (매우 간단합니다). R-CNN, Fast-CNN, YOLO에 대해 읽었습니다. 나는 그들이 그들에게 잘 맞는지 즉시 보았습니다. 그날 나는 그들을 더 자세히 알았습니다.

몇 가지 알고리즘의 복잡성을 배우는 데 더 집중해야하는지 또는 필요한만큼 그리고 언제, 그리고 많은 알고리즘을 알고 있어야 하는가?

복잡성을 배우는 것은 놀랍습니다. 그러나 세계는 정말 빠른 속도로 움직입니다. 여러분이 배운 것을 능가하는 새로운 알고리즘이있을 수 있습니다. 그러므로 그 사용을 씻어 내고 새로운 것이 당신에게 더 좋은지 알아볼 시간입니다.

필요할 때 배우십시오. 필요할 때 자세히 알아보십시오. 그들이 효과가 있다고 생각되면 적용 할 수 있어야합니다. 이 통찰력은 지식에서 비롯됩니다.

행운을 빕니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.