사용시기-기계 학습 [폐쇄]


39

최근 UPC / Barcelona의 Oriol Pujol 교수의 기계 학습 수업에서 그는 광범위한 기계 학습 관련 작업에 사용할 가장 일반적인 알고리즘, 원리 및 개념을 설명했습니다. 여기서 나는 당신과 그것들을 공유하고 당신에게 묻습니다.

  • 다양한 유형의 기계 학습 관련 문제와 관련된 접근 방식 또는 방법과 포괄적 인 프레임 워크 일치 작업이 있습니까?

간단한 가우시안을 어떻게 배울 수 있습니까? 확률, 랜덤 변수, 분포; 추정, 수렴 및 무증상, 신뢰 구간.

가우스 혼합 (MoG)을 어떻게 배우나요? 가능성, 기대 최대화 (EM); 일반화, 모델 선택, 교차 검증; k- 평균, 숨겨진 마르코프 모델 (HMM)

밀도를 배우려면 어떻게해야합니까? 파라 메트릭 대 비 파라 메트릭 추정, Sobolev 및 기타 기능 공간 ĺ 2 오류; 커널 밀도 추정 (KDE), 최적 커널, KDE 이론

연속 변수 (회귀)를 어떻게 예측합니까? 선형 회귀, 정규화, 능선 회귀 및 LASSO; 국소 선형 회귀; 조건부 밀도 추정.

불연속 변수 (분류)를 어떻게 예측합니까? 베이 즈 분류기, 순진 베이 즈, 생성 대 차별; 퍼셉트론, 무게 감퇴, 선형지지 벡터 머신; 가장 가까운 이웃 분류기와 이론

어떤 손실 기능을 사용해야합니까? 최대 가능성 추정 이론; 1-2 추정; 베이지안 추정; 미니 맥스 및 의사 결정 이론, 베이지안 대 잦은주의

어떤 모델을 사용해야합니까? AIC 및 BIC; Vapnik-Chervonenskis 이론; 교차 검증 이론; 부트 스트랩; 아마도 대략 정확한 (PAC) 이론; 호핑 파생 경계

더 멋진 모델을 어떻게 배울 수 있습니까? 앙상블 학습 이론; 부스팅; 배깅; 스태킹

더 멋진 모델을 어떻게 배울 수 있습니까? 일반화 된 선형 모형, 로지스틱 회귀; 콜 모고 로프 정리, 일반화 된 부가 모델; 커널 화, 커널 힐버트 공간 재현, 비선형 SVM, 가우스 프로세스 회귀

더 멋진 모델을 어떻게 배울 수 있습니까? 재귀 모델, 의사 결정 트리, 계층 적 클러스터링; 신경망, 역 전파, 깊은 믿음 네트워크; 그래픽 모델, HMM의 혼합, 조건부 랜덤 필드, 최대 마진 Markov 네트워크; 로그 선형 모델; 문법

기능을 줄이거 나 연관시키는 방법은 무엇입니까? 특징 선택 대 차원 감소, 특징 선택을위한 래퍼 방법; 인과 관계 vs 상관, 부분 상관, Bayes net 구조 학습

새로운 기능은 어떻게 만듭니 까? 주성분 분석 (PCA), 독립 성분 분석 (ICA), 다차원 스케일링, 매니 폴드 학습, 감독 차원 축소, 메트릭 학습

데이터를 줄이거 나 연관시키는 방법은 무엇입니까? 클러스터링, 이중 클러스터링, 제한된 클러스터링; 협회 규칙 및 시장 바구니 분석; 순위 / 순서 회귀; 링크 분석; 관계형 데이터

시계열은 어떻게 처리합니까? ARMA; 칼만 필터 및 통계 공간 모델, 입자 필터; 기능적 데이터 분석; 변화 점 탐지; 시계열에 대한 교차 검증

비 이상적인 데이터는 어떻게 처리합니까? 공변량 이동; 계급 불균형; 데이터 누락, 불규칙적으로 샘플링 된 데이터, 측정 오류; 이상 감지, 견고성

매개 변수를 어떻게 최적화합니까? 비제 한 대 제약 / 볼록 최적화, 미분없는 방법, 1 차 및 2 차 방법, 백 피팅; 자연 구배; 바운드 최적화 및 EM

선형 함수를 어떻게 최적화합니까? 계산 선형 대수, 회귀를위한 행렬 역전, 차원 축소를위한 특이 값 분해 (SVD)

제약 조건으로 최적화하려면 어떻게합니까? 볼록, Lagrange 멀티 플라이어, Karush-Kuhn-Tucker 조건, 내부 포인트 방법, SVM 용 SMO 알고리즘

깊이 중첩 된 합계는 어떻게 평가합니까? 정확한 그래픽 모델 유추, 합계의 변동 범위, 대략적인 그래픽 모델 유추, 기대 전파

큰 금액과 검색을 어떻게 평가합니까? 일반화 된 N- 본체 문제 (GNP), 계층 적 데이터 구조, 가장 가까운 이웃 검색, 빠른 다중 방법; Monte Carlo 통합, Markov Chain Monte Carlo, Monte Carlo SVD

더 큰 문제를 어떻게 처리합니까? 병렬 / 분산 EM, 병렬 / 분산 GNP; 확률 론적 하급 법, 온라인 학습

이 모든 것을 현실 세계에 어떻게 적용합니까? ML의 각 부분에 대한 개요, 각 작업에 사용할 방법, 사전 지식 및 가정 중에서 선택; 탐색 적 데이터 분석 및 정보 시각화; 신뢰 구간과 가설 검정, ROC 곡선을 이용한 평가 및 해석; ML의 연구 문제는 어디에


정말 광범위합니다. 의미있는 답변을 얻으려면 각 하위 질문이 별도의 질문이어야한다고 생각합니다.
Amir Ali Akbari

2
이 질문은 어떻게 보느냐에 따라 너무 넓거나 넓지 않을 수 있습니다. 질문이 작업과 방법에 대한 자세한 설명을 암시한다면 , 그것은 질문뿐만 아니라 한 권의 책에도 해당 될 것입니다. 그러나 나는이 질문이 그 해석을 의미한다고 생각하지 않습니다 . 나는이 질문이 접근 방식 이나 방법 과 작업을 일치 시키는 프레임 워크 또는 분류법을 찾고 있다고 생각합니다 ( 세분화 문제로 인해 알고리즘개념 은 무시해야합니다). 이러한 관점에서이 답변은 너무 광범위하지 않으므로 IMHO가 유효합니다.
알렉산드르 블 레크

@AleksandrBlekh 당신이 언급 한 종류의 틀은 질문의 의도입니다. 명확히하기 위해 편집하고 있습니다. 감사합니다
Javierfdr

@Javierfdr : 천만에요.
Aleksandr Blekh

@SeanOwen 주요 질문을 수정했습니다. 여전히 광범위하고 더 선명하게 만들어야하는지 알려주십시오. 고마워!
Javierfdr

답변:


6

@geogaffer에 동의합니다. 실제로 이것은 매우 훌륭한 목록입니다. 그러나 현재이 목록이 공식화되어 있으므로이 목록에 문제가 있는 것으로 보입니다 . 예를 들어, 하나의 문제는 제안 된 솔루션을 서로 다른의 때문이다 세분화 수준 - 그들 중 일부는 표현 방법 - 어떤 방법 , 어떤 - 알고리즘 단지 -, 그리고 몇몇 다른 개념 (즉, 용어 주제의 도메인 용어 내를). 또한 위의 것보다 훨씬 중요하다고 생각합니다. 목록에있는 모든 솔루션이 통합 된 주제 통계 프레임 워크 내에 배치 된 경우 훨씬 가치가 있다고 생각합니다.. 이 아이디어는 Lisa Harlow의 "다변량 사고의 본질"이라는 훌륭한 책을 읽음으로써 영감을 받았습니다. 따라서 최근에는 현재 다소 제한적이지만 StackExchange의 Cross Validated 사이트 에 대한 해당 토론 을 시작했습니다 . 제목이 당신을 혼동하지 마십시오. 내 암시 적 의도와 희망은 위에서 언급했듯이 통합 프레임 워크 를 구축하는 것 입니다.


언급 한 프레임 워크는 좋은 것입니다! 비슷한 내용이 있습니까?
Javierfdr

@ Javierfdr : 내가 아는 것이 없습니다. 그러나 나는 계속 찾고 있습니다.
Aleksandr Blekh

@AleksandrBlekh 나는 그것에 대해 더 많이 생각할수록 통계 프레임 워크에 대한 검색 이 잘못 되었다고 생각합니다 . 귀하의 질문에 대한 Frank Harrell의 답변과 이에 대한 나의 답변을 참조하십시오. 하지만 할로우의 책은 정말 흥미로워 서 이번 주에 도서관에서 gonna겠습니다.
shadowtalker

1
@ ssdecontrol : 나는 정중하게 동의하지 않습니다. 그러한 프레임 워크가 존재하지 않는다고 가정하고 (현재의 경우 일 가능성이 높음) 프레임 워크를 만드는 것이 쉬운 일이 아니라는 것을 알고 있다고하더라도, 나는 그것이 매우 가능하다고 믿습니다. 당신이 언급 한 답변 (항상 모든 것을 읽습니다)에 관해서는, 나는 두 가지를 모두 읽었지만, 언급 한 것처럼 그러한 프레임 워크를 만드는 것이 불가능하다는 것을 증명하지 못합니다. 그것은 사람들이 그것에 대해 생각하지 않고 그것을 향해 나아가는 것을 막아야하는 것이 아닙니다. 할로우의 책을 즐기십시오.
Aleksandr Blekh

3

그것은 많은 것을 다루는 좋은 목록입니다. 머신 러닝이라고 불리는 이래로 이러한 방법 중 일부를 사용했으며 시간이 지남에 따라 나열하고 사용하지 않는 방법 중 일부를 보게 될 것입니다. 방법이 너무 오랫동안 유리하지 않은 경우 다시 방문해야 할 시간입니다. 일부 방법은 다른 연구 분야로 인해 다른 이름으로 난독화할 수 있습니다.

내가이 방법을 사용한 주요 영역 중 하나는 지리 공간적이며 공간 및 방향 데이터 방법과 관련된 몇 가지 범주를 추가 할 수 있도록 지원하는 광물 모델링입니다.

특정 분야에 대한 광범위한 질문을하는 것은 아마도 전체 목록에없는 방법의 예를 더 많이 찾을 수있을 것입니다. 예를 들어, 광물 잠재력에서 본 두 가지 방법은 뒤로 단계적으로 회귀하고 증거 모델링의 가중치였습니다. 나는 통계학자가 아니다. 아마도 이들은 선형 회귀 및 베이지안 방법의 목록에서 다루어 질 것입니다.


1

나는 당신의 접근 방식이 약간 뒤떨어져 있다고 생각합니다.

"이 데이터에 맞는 가우시안 분포의 평균은 무엇입니까?" 문제 설명이 아니므로 "가우시안에 어떻게 맞습니까?" 실제로 해결하려는 문제는 아닙니다.

차이점은 의미 이상의 것입니다. "새로운 기능은 어떻게 구성합니까?"라는 질문을 고려하십시오. 색인을 개발하는 것이 목표 인 경우 일부 유형의 요인 분석을 사용할 수 있습니다. 선형 모형을 피팅하기 전에 형상 공간을 간단히 줄이는 것이 목표라면 전체 단계를 건너 뛰고 대신 탄성 순 회귀를 사용할 수 있습니다.

더 나은 접근 방법은 실제 데이터 분석 작업 목록을 정리하는 입니다. 다음과 같은 질문 :

고객이 쇼핑 웹 사이트로 돌아갈 지 여부를 어떻게 예측합니까?

얼마나 많은 "주요한"소비자 쇼핑 패턴이 있는지 어떻게 알 수 있습니까?

온라인 상점의 여러 품목에 대해 "휘발성"지수를 어떻게 구성합니까?

또한 귀하의 목록에는 현재 엄청난 양의 자료가 포함되어 있습니다. "검토"하고 표면 수준의 이해 이상을 얻기에는 너무 많은 것입니다. 실제 목적을 염두에두면 우선 순위를 정렬하는 데 도움이 될 수 있습니다.


@ssdecontrol의 말을 이해합니다. 실제로 언급 한 것처럼 일반적인 문제에 대한 포괄적 인 솔루션 목록을 갖는 것이 매우 유용 할 수 있습니다. 이제 두 가지 접근 방식의 주요 차이점은 내가 제안하는 내용은 이미 대안을 시도 할 때 직접 문의 할 수있는 기술적 질문과 직접 ​​연결되어 있다는 점입니다.이 시점에서 이미 가정을했습니다. 귀하의 기능이 가우시안이 아닌 경우 차원 축소를 위해 PCA를 사용해야합니까? 아니요. 접근 방식이 더 넓습니다 : 희미하게 사용할 것. 축소-> PCA이지만 가우스 기능을 가정합니다. Thx
Javierfdr 2016 년

@Javierfdr 내 요점은 실질적인 질문이 없다면 기술적 인 질문은 산만하다는 것입니다.
shadowtalker
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.