우리는 기계 학습 : 확률 적 관점 (Kevin Murphy)을 통해 기계 학습을 공부하고 있습니다. 텍스트는 각 알고리즘의 이론적 기초를 설명하지만 어떤 경우에 어떤 알고리즘이 더 낫다는 것을 거의 말하지 않으며, 어떤 알고리즘이 더 나은지에 대해서는 말하지 않습니다.
예를 들어, 커널을 선택하기 위해 데이터의 복잡성을 측정하기 위해 탐색 적 데이터 분석을 수행하라는 지시를 받았습니다. 간단한 2 차원 데이터에서 선형 또는 방사형 커널이 적절한 지 플롯하고 볼 수 있습니다. 그러나 더 높은 차원에서 무엇을해야합니까?
더 일반적으로, 사람들은 알고리즘을 선택하기 전에 "데이터를 알아야한다"고 말할 때 무엇을 의미합니까? 현재 분류 대 회귀 알고리즘과 선형 대 비선형 알고리즘 (확인할 수 없음) 만 구별 할 수 있습니다.
편집 : 내 원래의 질문은 일반적인 경험 규칙에 관한 것이지만 내 특정 문제에 대한 자세한 정보를 제공하라는 요청을 받았습니다.
데이터 : 각 행이 국가 별 월인 패널 (~ 15 년 동안 ~ 165 개 국가에 걸쳐 총 30,000 행).
응답 : 5 개의 이진 변수 (즉, 해당 달에 항의 / 쿠데타 / 위기 등)가 발생합니다.
특징 : ~ 400 개 변수 (연속, 범주, 이진의 혼합)로, 이전 2 개월 국가의 특성을 자세히 설명합니다 (더 긴 지연을 생성 할 수 있음). 목표는 예측이므로 지연 변수 만 사용합니다.
예를 들어 환율, GDP 성장률 (연속), 자유 언론 수준 (범주 적), 민주주의, 이웃의 분쟁 여부 (이진) 등이 있습니다. 이 400 가지 기능 중 다수는 지연된 변수입니다.