나는 기계 학습에 익숙하지 않고 다른 기계 학습 알고리즘 (결정 트리, 부스팅, SVM 및 신경망) 간의 차이점을 비교하고 대조 할 수있는 일부 데이터 세트를 찾고 있습니다.
이러한 데이터 세트는 어디에서 찾을 수 있습니까? 데이터 세트를 고려하면서 무엇을 찾아야합니까?
좋은 데이터 세트를 가리키고 데이터 세트를 만드는 데 도움이된다면 좋을까요?
나는 기계 학습에 익숙하지 않고 다른 기계 학습 알고리즘 (결정 트리, 부스팅, SVM 및 신경망) 간의 차이점을 비교하고 대조 할 수있는 일부 데이터 세트를 찾고 있습니다.
이러한 데이터 세트는 어디에서 찾을 수 있습니까? 데이터 세트를 고려하면서 무엇을 찾아야합니까?
좋은 데이터 세트를 가리키고 데이터 세트를 만드는 데 도움이된다면 좋을까요?
답변:
Kaggle 에는 실습에 사용할 수있는 전체 데이터 집합이 있습니다.
(지금까지 언급되지 않은 것에 놀랐습니다!)
그것은 매우 귀중한 자원을 만드는 두 가지 (많은 것들 중에서)를 가지고 있습니다 :
먼저 소프트웨어와 함께 제공되는 샘플 데이터로 시작하는 것이 좋습니다. 대부분의 소프트웨어 배포에는 데이터 유형을 다루지 않고 알고리즘에 적합한 형식으로 데이터를 레슬링하지 않고도 알고리즘에 익숙해지는 데 사용할 수있는 예제 데이터가 포함되어 있습니다. 알고리즘을 처음부터 작성하더라도 비슷한 구현의 샘플로 시작하여 성능을 비교할 수 있습니다.
둘째, 합성 데이터 세트를 실험하여 데이터 생성 방식과 신호 대 잡음비를 알 때 알고리즘이 어떻게 수행되는지에 대한 느낌을 얻는 것이 좋습니다.
R에서는 다음 명령을 사용하여 현재 설치된 패키지의 모든 데이터 세트를 나열 할 수 있습니다.
data(package = installed.packages()[, 1])
R 패키지 mlbench 에는 실제 데이터 세트가 있으며 알고리즘 성능을 연구하는 데 유용한 합성 데이터 세트를 생성 할 수 있습니다 .
Python의 scikit-learn 에는 샘플 데이터가 있으며 합성 / 장난감 데이터 세트도 생성합니다.
SAS는 교육 데이터 세트 를 다운로드 할 수 있으며 SPSS 샘플 데이터는 C : \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples에 소프트웨어와 함께 설치됩니다.
마지막으로, 나는 야생의 데이터를 볼 것입니다. 실제 데이터 세트에서 다른 알고리즘 및 튜닝 매개 변수의 성능을 비교합니다. 알고리즘에 직접 넣을 수있는 데이터 유형과 구조를 가진 데이터 세트를 거의 찾지 않기 때문에 일반적으로 더 많은 작업이 필요합니다.
거친 데이터의 경우 다음을 권장합니다.
제 생각에는 너무 많은 기능이없는 작은 데이터 세트로 시작할 수 있습니다.
예를 들어 Iris 데이터 세트 (분류 용)가 있습니다. 3 개의 클래스, 각 클래스 당 총 50 개의 샘플이 있으며 총 150 개의 데이터 포인트가 있습니다. 이 데이터 세트를 탐색하는 데 도움이되는 훌륭한 자료 중 하나는 Data School 의이 비디오 시리즈 입니다.
체크 아웃 할 다른 데이터 세트는 UCI -ML 저장소의 와인 품질 데이터 세트입니다. 12 개의 속성을 가진 4898 개의 데이터 포인트가 있습니다.