내 머신 러닝 구현을 테스트하는 데 유용한 데이터 세트는 어디에서 찾을 수 있습니까? [닫은]


9

현재 자체적으로 일부 기계 학습 알고리즘을 구현하려고합니다. 그들 중 많은 사람들이 디버깅하기 어려운 불쾌한 속성을 가지고 있습니다. 일부 버그는 프로그램 충돌을 일으키지 않지만 의도 된대로 작동하지 않고 알고리즘이 약한 결과를주는 것처럼 보입니다.

예를 들어 "Algorithms X가 Y 반복을 위해 작동했으며 결과 Z가이 데이터 세트에 있음"이라는 추가 정보가있는 작은 데이터 세트가있는 경우 구현에 대한 신뢰를 높일 수있는 방법이 필요합니다. 그런 데이터 세트에 대해 들어 본 사람이 있습니까?


이 질문을 조사하기 위해 어떤 연구를 수행 했습니까? 처음에는 홍당무, 이러한 알고리즘을 찾기 위해 사용하는 문헌이 샘플 데이터 세트로 가득 차 있다고 생각할 것입니다.
whuber

1
글쎄, 나는 대부분 코스, 코스타, 인터넷 강의 비디오 및 특정 주제에 대해 읽은 몇 가지 논문에서 ML을 알고 있습니다. 나는 도처에 많은 샘플 데이터 세트가 있다는 것을 알고 있지만 다른 ML 알고리즘이 어떻게 수행되는지에 대한 정보를 찾고 있습니다. 그래서 내 구현을 확인할 수 있습니다.
sjm.majewski 오전

ICML에 최근 표준화 된 데이터 세트 관련 문제에 대한 좋은 논문이있었습니다. 실제 문제와 실제 문제와 관련된 혼란에 대해 너무 열심히 생각하는 것을 막습니다. 개인적으로 실제 데이터를 사용하기 시작했을 때 실습 자로서의 기술은 꽃이 피었습니다. 따라서 UCI와 같은 것을 디딤돌이나 테스트로 사용하는 것을 권장하지는 않지만 상을 주시하십시오!
Patrick Caldon

1
수행중인 기계 학습 유형을 지정해야합니다. 이진 분류 데이터 세트는 함수 근사 (회귀) 데이터 세트와 다릅니다.
Douglas Zare

답변:


10

로부터 UC 어바인 기계 학습 저장소 :

현재 머신 러닝 커뮤니티에 서비스로 223 개의 데이터 세트를 유지 관리하고 있습니다. 검색 가능한 인터페이스를 통해 모든 데이터 세트를 볼 수 있습니다. 이전 형식을 선호하는 사람들을 위해 이전 웹 사이트를 계속 사용할 수 있습니다. ... 데이터 세트를 기부하려면 기부 정책을 참조하십시오. ... 우리는 또한 저장소에 대한 미러 사이트를 설정했습니다.

또한 다음 MIAS 데이터 세트 가 널리 사용되고 연구되었습니다.

알고리즘을 벤치마킹 할 때 연구원들이 결과를 직접 비교할 수 있도록 표준 테스트 데이터베이스 (데이터 세트)를 사용하는 것이 좋습니다. 대부분의 유방 촬영 데이터베이스는 공개적으로 이용할 수 없습니다. 가장 쉽게 액세스 할 수있는 데이터베이스와 가장 일반적으로 사용되는 데이터베이스는 MIAS (Mammographic Image Analysis Society) 데이터베이스와 DDSM (Digital Database for Screening Mammography)입니다. 게다가, 현재 새로운 유방 촬영 영상 데이터베이스를 개발하는 프로젝트는 거의 없으며 몇 가지 오래된 프로젝트도 있습니다.


2
+1 더 많은 출처를 계속 찾으시면 언제든지이 답변을 보강하십시오.
whuber

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.