답변:
딥 러닝 은 2006 년부터 많은 관심을 받았습니다. 기본적으로 딥 뉴럴 네트워크를 훈련시키는 접근 방식이며 문서 클러스터링이나 객체 인식과 같은 매우 어려운 데이터 세트에 대한 인상적인 결과를 이끌어냅니다. 어떤 사람들은 두 번째 신경망 르네상스에 대해 이야기 하고 있습니다 (예 : Schmidhuber의 Google 토크 ).
감동을 원한다면 신경 과학 , Hinton & Salakhutdinov 의 데이터 차원 축소라는 과학 논문을 살펴 보십시오.
(현재이 분야에서 진행중인 작업이 너무 많아서 앞으로 다룰 책이 2 개뿐입니다. 대규모 기계 학습 , Langford 등 및 기계 학습 : Kevin Murphy 의 확률 적 관점 .)
자세한 내용을 알아 보려면 스탠포드 , 몬트리올 및 가장 중요한 토론토 # 1 및 토론토 # 2 와 같은 주요 딥 러닝 그룹의 활동을 확인하십시오 .
지금까지 제공된 대부분의 답변은 "감독 학습"(즉, 데이터 집합의 일부에 대한 레이블이있는 경우 알고리즘 학습에 사용할 수있는 레이블)을 나타냅니다. 이 질문은 클러스터링을 구체적으로 언급했는데, 이는 "감독되지 않은"접근 방식입니다 (즉, 사전에 알려진 라벨이 없습니다). 이 시나리오에서는 다음을 살펴볼 것을 제안합니다.
그러나 실제로는 사용하는 특정 알고리즘보다 유사성 / 거리 측정이 더 중요하다는 것을 알 수 있습니다.
레이블이 지정된 데이터가있는 경우 "반 중첩 학습"접근 방식이 인기를 얻고 있으며 매우 강력 할 수 있습니다. SSL의 좋은 출발점은 LapSVM (Laplacian Support Vector Machine)입니다.
다음은 도움이 될만한 책입니다.
그런 다음 Stanford에서 무료로 제공되는 기계 학습 수업에 참석할 수 있음을 기억하십시오 : www.ml-class.com .
그리고 여러분의 특정한 문제, 즉 SNP 분석 에 대해서는 파도바 대학교 (University of Padova) 의 Di Camillo 그룹 을 살펴볼 것을 제안합니다 .
다음은 가장 많이 사용되는 방법의 이론적 근거, 이론 및 적용을 설명하는 훌륭한 기사와 책입니다.
그것은 현장의 전문가들에 의해 선택된 "상위 10"이기 때문에 특히 깔끔합니다.
또한 일반적으로 유전자 데이터의 경우 많은 특징 때문에 특징 선택이 매우 중요합니다. 예를 들어, SVM-RFE (recursive feature elimination) 및 관련 방법은 매우 널리 사용되고 있으며 유전자 데이터와 관련하여 활발하게 개발되고 적용되고있다.
나는 다음과 같은 책을 추천합니다
Rasmussen and Williams (MIT Press)의 머신 러닝 을 위한 가우스 프로세스 는 필수입니다. 가우시안 프로세스는 이제 예상 전파 및 변형 추론 알고리즘을 사용할 수 있으므로 머신 러닝을위한 핫 알고리즘 중 하나입니다. 이 책은 매우 잘 쓰여졌으며 무료 MATLAB 도구 상자 (좋은 키트)가 있으며이 책은 무료로 다운로드 할 수 있습니다.