탐색 적 데이터 분석을 수행하여 적절한 머신 러닝 알고리즘을 선택하는 방법


16

우리는 기계 학습 : 확률 적 관점 (Kevin Murphy)을 통해 기계 학습을 공부하고 있습니다. 텍스트는 각 알고리즘의 이론적 기초를 설명하지만 어떤 경우에 어떤 알고리즘이 더 낫다는 것을 거의 말하지 않으며, 어떤 알고리즘이 더 나은지에 대해서는 말하지 않습니다.

예를 들어, 커널을 선택하기 위해 데이터의 복잡성을 측정하기 위해 탐색 적 데이터 분석을 수행하라는 지시를 받았습니다. 간단한 2 차원 데이터에서 선형 또는 방사형 커널이 적절한 지 플롯하고 볼 수 있습니다. 그러나 더 높은 차원에서 무엇을해야합니까?

더 일반적으로, 사람들은 알고리즘을 선택하기 전에 "데이터를 알아야한다"고 말할 때 무엇을 의미합니까? 현재 분류 ​​대 회귀 알고리즘과 선형 대 비선형 알고리즘 (확인할 수 없음) 만 구별 할 수 있습니다.

편집 : 내 원래의 질문은 일반적인 경험 규칙에 관한 것이지만 내 특정 문제에 대한 자세한 정보를 제공하라는 요청을 받았습니다.

데이터 : 각 행이 국가 별 월인 패널 (~ 15 년 동안 ~ 165 개 국가에 걸쳐 총 30,000 행).

응답 : 5 개의 이진 변수 (즉, 해당 달에 항의 / 쿠데타 / 위기 등)가 발생합니다.

특징 : ~ 400 개 변수 (연속, 범주, 이진의 혼합)로, 이전 2 개월 국가의 특성을 자세히 설명합니다 (더 긴 지연을 생성 할 수 있음). 목표는 예측이므로 지연 변수 만 사용합니다.

예를 들어 환율, GDP 성장률 (연속), 자유 언론 수준 (범주 적), 민주주의, 이웃의 분쟁 여부 (이진) 등이 있습니다. 이 400 가지 기능 중 다수는 지연된 변수입니다.

답변:


15

이것은 간단한 대답이없는 광범위한 질문입니다. CMU에서 저는 이 주제에 대해 3 개월 과정 을 가르쳤습니다 . 다음과 같은 문제를 다루었습니다.

  1. 예측 을 사용하여 변수와 전체 분포 구조 간의 상관 관계를 이해합니다.
  2. 방법을 구축 연속적으로 모델링 잔류하여 회귀 모델을.
  3. 비선형 교호 작용 항을 선형 모형에 추가 할시기 결정
  4. knn과 의사 결정 트리 및 로지스틱 분류기 간의 결정 방법 여러 UCI 데이터 집합을 살펴본 후 실행하기 전에 어떤 분류자가 이길 지 알 수있는 방법을 보여주었습니다.

슬프게도, 코스에 대한 비디오 또는 교과서는 없지만 수업의 요점을 요약 한 연설을 했습니다. 나는 같은 근거를 다루는 교과서를 모른다.


이 유용한 자료를 소화하는 데 하루나 이틀이 걸리지 만주의를 기울이는 동안 :이 주제를 다루는 교과서 / 자료가없는 이유는 무엇입니까? 누군가 프로젝트에 참여할 때마다이 질문에 대해 생각해야하므로 중요하지 않습니까?
Heisenberg

1
좋은 질문 (+1)과 답변 (+1). @Heisenberg : Tom이 주제에 대한 특정 교과서를 보지 않은 것에 동의합니다. 그러나 그의 자료 외에도 두 가지 온라인 자료를 제안합니다 (ML 응용 프로그램에 초점을 맞추지 않았음에도 불구하고). 1) NIST 공학 통계 안내서 의 EDA 섹션 ; 2) 복잡한 모델에 대한 EDA에 관한 Andrew Gelman 교수 의 흥미로운 논문 .
Aleksandr Blekh

0

데이터를 확인할 수있는 것이 있습니다.

1 - correlation between variables
2 - categorical variables or continuous variables?
3 - relation between number of samples and number of variables
4 - are the samples independent or is it a time series? 

이러한 요점과 데이터에서 추출하려는 정보의 종류에 따라 사용할 알고리즘을 결정할 수 있습니다.


이 4 가지 정보 각각이 내 알고리즘 선택에 어떤 영향을 미치는지 자세히 설명해 주시겠습니까? 나는 2가 분류 대 회귀를 결정할 것이라는 것을 알고 있습니다. 다른 3은 어떻습니까? (특히 #
4-10

2-에서는 범주 형 변수를 입력으로 생각했습니다. 알고리즘의 최종 결정은 해결하려는 문제에 따라 다릅니다. 이제 그것을 알 수있는 방법이 있습니다. 2-에서 의사 결정 트리가 도움이 될 수 있습니다. 3에서는 과적 합에주의해야합니다. 4-에서는 성과 평가 방법을 결정해야합니다. 특정 문제를 설명하는 경우에만 사용할 알고리즘을 결정하는 데 도움을 줄 수 있습니다.
돈 베오

내 특정 문제에 대한 자세한 내용을 보려면 질문을 편집했습니다.
Heisenberg
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.