기본적인 머신 러닝 알고리즘을 배우기위한 좋은 데이터 세트는 무엇이며 그 이유는 무엇입니까?


19

나는 기계 학습에 익숙하지 않고 다른 기계 학습 알고리즘 (결정 트리, 부스팅, SVM 및 신경망) 간의 차이점을 비교하고 대조 할 수있는 일부 데이터 세트를 찾고 있습니다.

이러한 데이터 세트는 어디에서 찾을 수 있습니까? 데이터 세트를 고려하면서 무엇을 찾아야합니까?

좋은 데이터 세트를 가리키고 데이터 세트를 만드는 데 도움이된다면 좋을까요?


6
이 질문이 opendata.stackexchange.com 에 더 적합하지 않은지 궁금합니다 ... 데이터 세트와 관련하여 대부분의 교과서에서 이러한 데이터 세트를 언급하고 사용 가능하게 만들면 통계 소프트웨어 나 해당 소프트웨어의 라이브러리에서 이미 많은 데이터를 사용할 수 있습니다. archive.ics.uci.edu/ml/datasets.html 도 볼 수 있습니다 . 물론, 또 다른 질문은 일부 데이터 세트를 학습에 "좋은"것으로 만들고 일부는 "나쁜"것입니다. 흥미로운 질문입니다.
Tim

CRAN에서 ElemStatLearn 및 기타와 같은 일부 데이터 세트를 패키지로 찾을 수 있습니다.
kjetil b halvorsen 오전

2
@Tim 이 질문 에는 교육적 측면 이 있기 때문에 (예를 들어, 학습 목적을위한 "좋은"데이터 세트의 한 예는 다른 알고리즘이 매우 다른 결과를 제공하는 위치를 보여주는 것입니다) OpenData보다 CV에 더 적합하다고 생각합니다.
Silverfish

2
나는 교육학적인 관점에서 데이터 세트에 대한 질문이 여기에 분명한 주제라고 생각합니다. 예 : “아이리스”데이터 세트의 어떤 측면이 예제 / 교습 / 테스트 데이터 세트처럼 성공적인가 ; Anscombe의 사중주와 유사한 목적으로 구축 된 데이터 세트
Silverfish

@ Silverfish : 이것은 메타에 대해 논의되었습니다- "데이터 세트에 대한 질문": 가능한 예외? -귀하의 견해와 일반적인 동의가있는 것 같습니다. 그러나 나는 여전히이 질문을 생각합니다. 오히려 광범위 합니까? 자유롭게 이용할 수있는 데이터 샘플찾는 것과 명확히 구별되는 것은 무엇 입니까?
Scortchi-Monica Monica 복원

답변:


16

다음 사이트의 데이터 세트는 무료로 제공됩니다. 이 데이터 세트는 대부분 데이터 세트에 대한 설명이 있기 때문에 학생들에게 ML 알고리즘을 가르치는 데 사용되었습니다. 또한 어떤 종류의 알고리즘이 적용 가능한지 언급되었습니다.

  1. UCI- 머신 러닝 저장소
  2. ML Comp
  3. 맘모 이미지
  4. 뮬란

11

Kaggle 에는 실습에 사용할 수있는 전체 데이터 집합이 있습니다.

(지금까지 언급되지 않은 것에 놀랐습니다!)

그것은 매우 귀중한 자원을 만드는 두 가지 (많은 것들 중에서)를 가지고 있습니다 :

  • 많은 깨끗한 데이터 세트. 무소음 데이터 세트는 실제 데이터 세트를 대표하지 않지만 ML 알고리즘 배포와 같은 목적에 특히 적합합니다.
  • 동일한 데이터 세트에 대해 다른 ML 모델을 볼 수도 있습니다.이 과정에서 해킹을 선택하는 재미있는 방법이 될 수 있습니다. 최고의 실무자로부터 배우면서 얻는 노출의 종류는 다른 어떤 것과 마찬가지로 매우 도움이된다는 것은 말할 나위도 없습니다.

1
엄청나게 다양한 데이터 세트 외에도 각 챌린지에 대한 포럼은 코드 예제와 함께 기술과 트릭을 선택하는 데 귀중한 리소스이기 때문에 이것은 정말로 최고의 대답이되어야합니다.
Alex R.

2

먼저 소프트웨어와 함께 제공되는 샘플 데이터로 시작하는 것이 좋습니다. 대부분의 소프트웨어 배포에는 데이터 유형을 다루지 않고 알고리즘에 적합한 형식으로 데이터를 레슬링하지 않고도 알고리즘에 익숙해지는 데 사용할 수있는 예제 데이터가 포함되어 있습니다. 알고리즘을 처음부터 작성하더라도 비슷한 구현의 샘플로 시작하여 성능을 비교할 수 있습니다.

둘째, 합성 데이터 세트를 실험하여 데이터 생성 방식과 신호 대 잡음비를 알 때 알고리즘이 어떻게 수행되는지에 대한 느낌을 얻는 것이 좋습니다.

R에서는 다음 명령을 사용하여 현재 설치된 패키지의 모든 데이터 세트를 나열 할 수 있습니다.

data(package = installed.packages()[, 1])

R 패키지 mlbench 에는 실제 데이터 세트가 있으며 알고리즘 성능을 연구하는 데 유용한 합성 데이터 세트를 생성 할 수 있습니다 .

Python의 scikit-learn 에는 샘플 데이터가 있으며 합성 / 장난감 데이터 세트도 생성합니다.

SAS는 교육 데이터 세트 를 다운로드 할 수 있으며 SPSS 샘플 데이터는 C : \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples에 소프트웨어와 함께 설치됩니다.

마지막으로, 나는 야생의 데이터를 볼 것입니다. 실제 데이터 세트에서 다른 알고리즘 및 튜닝 매개 변수의 성능을 비교합니다. 알고리즘에 직접 넣을 수있는 데이터 유형과 구조를 가진 데이터 세트를 거의 찾지 않기 때문에 일반적으로 더 많은 작업이 필요합니다.

거친 데이터의 경우 다음을 권장합니다.

reddit의 데이터 셋 아카이브

KDnugget의 목록


1
R이없는 사용자를 위해 이러한 데이터 세트에 액세스하기 위해 R을 다운로드하지 않으려는 경우 여기 에서 데이터 세트 및 설명을 볼 수 있습니다 .
복직 모니카

0

아이리스 데이터 세트 손을 아래로. 기본 R에도 있습니다.


1
질문의 실질적인 부분에 응답하십시오 : "... 또한 그것들이 좋은 데이터 셋을 만드는 이유를 알려주십시오?"
whuber

0

제 생각에는 너무 많은 기능이없는 작은 데이터 세트로 시작할 수 있습니다.

예를 들어 Iris 데이터 세트 (분류 용)가 있습니다. 3 개의 클래스, 각 클래스 당 총 50 개의 샘플이 있으며 총 150 개의 데이터 포인트가 있습니다. 이 데이터 세트를 탐색하는 데 도움이되는 훌륭한 자료 중 하나는 Data School 의이 비디오 시리즈 입니다.

체크 아웃 할 다른 데이터 세트는 UCI -ML 저장소의 와인 품질 데이터 세트입니다. 12 개의 속성을 가진 4898 개의 데이터 포인트가 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.