머신 러닝을위한 "핫 알고리즘"은 무엇입니까?


14

이것은 기계 학습을 배우기 시작한 누군가의 순진한 질문입니다. 저는 요즘 Marsland의 "Machine Learning : 알고리즘 관점"이라는 책을 읽고 있습니다. 소개 책으로 유용하다고 생각하지만 현재는 최상의 결과를 제공하는 고급 알고리즘으로 가고 싶습니다. 나는 주로 생물 정보학에 관심이있다 : 생물학적 네트워크의 클러스터링과 생물학적 염기 서열에서의 패턴 발견, 특히 단일 염기 다형성 (SNP) 분석에 적용. 읽을 리뷰 나 책을 추천 해 주시겠습니까?

답변:


15

딥 러닝 은 2006 년부터 많은 관심을 받았습니다. 기본적으로 딥 뉴럴 네트워크를 훈련시키는 접근 방식이며 문서 클러스터링이나 객체 인식과 같은 매우 어려운 데이터 세트에 대한 인상적인 결과를 이끌어냅니다. 어떤 사람들은 두 번째 신경망 르네상스에 대해 이야기 하고 있습니다 (예 : Schmidhuber의 Google 토크 ).

감동을 원한다면 신경 과학 , Hinton & Salakhutdinov 의 데이터 차원 축소라는 과학 논문을 살펴 보십시오.

(현재이 분야에서 진행중인 작업이 너무 많아서 앞으로 다룰 책이 2 개뿐입니다. 대규모 기계 학습 , Langford 등 및 기계 학습 : Kevin Murphy 의 확률 적 관점 .)

자세한 내용을 알아 보려면 스탠포드 , 몬트리올 및 가장 중요한 토론토 # 1토론토 # 2 와 같은 주요 딥 러닝 그룹의 활동을 확인하십시오 .


8

지금까지 제공된 대부분의 답변은 "감독 학습"(즉, 데이터 집합의 일부에 대한 레이블이있는 경우 알고리즘 학습에 사용할 수있는 레이블)을 나타냅니다. 이 질문은 클러스터링을 구체적으로 언급했는데, 이는 "감독되지 않은"접근 방식입니다 (즉, 사전에 알려진 라벨이 없습니다). 이 시나리오에서는 다음을 살펴볼 것을 제안합니다.

  • k- 평균 및 커널 k- 평균
  • 응집 클러스터링
  • 음이 아닌 행렬 분해
  • 잠재 된 디 리클 렛 할당
  • 디리클레 프로세스 및 계층 적 디 리클 프로세스

그러나 실제로는 사용하는 특정 알고리즘보다 유사성 / 거리 측정이 더 중요하다는 것을 알 수 있습니다.

레이블이 지정된 데이터가있는 경우 "반 중첩 학습"접근 방식이 인기를 얻고 있으며 매우 강력 할 수 있습니다. SSL의 좋은 출발점은 LapSVM (Laplacian Support Vector Machine)입니다.


7

다음은 도움이 될만한 책입니다.

  • Pang-Ning Tan, Michael Steinbach, Vipin Kumar의 데이터 마이닝 소개 이것은 대학에서 데이터 마이닝 수업 중에 제안 된 책이었습니다. 나는 레이아웃과 이론적 인 접근 방식을 좋아합니다.
  • 데이터 마이닝 : 실용적인 기계 학습 도구 및 기법 Ian H. Witten, Eibe Frank, Mark A. Hall. 매우 흥미로운 책. 이 책은 또한 데이터 마이닝 프레임 워크 WEKA로 구현 된 많은 기술을 다룹니다 .
  • Thomas Mitchell의 기계 학습 . 약간 오래된 책이지만 유용 할 수 있습니다.

그런 다음 Stanford에서 무료로 제공되는 기계 학습 수업에 참석할 수 있음을 기억하십시오 : www.ml-class.com .

그리고 여러분의 특정한 문제, 즉 SNP 분석 에 대해서는 파도바 대학교 (University of Padova) 의 Di Camillo 그룹 을 살펴볼 것을 제안합니다 .


5

다음은 가장 많이 사용되는 방법의 이론적 근거, 이론 및 적용을 설명하는 훌륭한 기사와 책입니다.

데이터 마이닝의 톱 10 알고리즘

그것은 현장의 전문가들에 의해 선택된 "상위 10"이기 때문에 특히 깔끔합니다.

또한 일반적으로 유전자 데이터의 경우 많은 특징 때문에 특징 선택이 매우 중요합니다. 예를 들어, SVM-RFE (recursive feature elimination) 및 관련 방법은 매우 널리 사용되고 있으며 유전자 데이터와 관련하여 활발하게 개발되고 적용되고있다.


4

부스트 트리와 일부 형태의 svm은 많은 경쟁에서 승리하지만 항상 상황에 달려 있습니다. 매니 폴드 정규화도 최첨단에 있습니다.


4

Hastie, Tibshirani 및 Friedman의 "통계학 학습 요소"를 추천합니다. 단지 그것을 읽고, 그것들에 의해 설명 된 알고리즘을 가지고 놀아 라 (대부분 그것들은 R로 구현되거나 심지어 당신 자신을 구현할 수도있다), 그들의 약점과 장점을 배운다.



3

Rasmussen and Williams (MIT Press)의 머신 러닝위한 가우스 프로세스 는 필수입니다. 가우시안 프로세스는 이제 예상 전파 및 변형 추론 알고리즘을 사용할 수 있으므로 머신 러닝을위한 핫 알고리즘 중 하나입니다. 이 책은 매우 잘 쓰여졌으며 무료 MATLAB 도구 상자 (좋은 키트)가 있으며이 책은 무료로 다운로드 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.