기계 학습 분류 / 회귀 작업에 대한 몇 가지 고전적인 데이터 세트가 있습니다. 가장 인기있는 것은 :
- 아이리스 꽃 데이터 세트 ;
- 타이타닉 데이터 세트 ;
- 모터 트렌드 자동차 ;
- 기타
그러나 네트워크 분석 / 그래프 이론에 대한 유사한 데이터 세트를 아는 사람이 있습니까? 더 구체적- 비교 / 평가 / 학습을 위한 Gold 표준 데이터 세트를 찾고 있습니다.
- 중심성 측정;
- 네트워크 클러스터링 알고리즘.
공개적으로 사용 가능한 네트워크 / 그래프 목록이 필요하지는 않지만 실제로 알아야 할 몇 가지 데이터 세트가 있습니다.
편집하다:
"골드 표준 데이터 세트"에 정확한 기능을 제공하는 것은 매우 어렵지만 여기에 몇 가지 생각이 있습니다. 실제 클래식 데이터 세트는 다음 기준을 충족해야한다고 생각합니다.
- 기사 및 교과서에서 여러 참조;
- 잘 알려진 네트워크 분석 소프트웨어 패키지에 포함
- 충분한 존재 시간;
- 그래프 분석에 대한 여러 과정에서의 사용법.
관심 분야와 관련하여 정점 및 / 또는 사전 계산 된 (또는 사전 정의 된) "권한 점수"(예 : 중심성 추정)에 대한 레이블이있는 클래스도 필요합니다. 이 질문을 한 후 검색을 계속했으며 적절한 예가 있습니다.
- Zachary 's Karate Club : 1977 년에 소개되었으며, Google Scholar에 따르면 1.5k 번 이상 인용 된 정점은 Faction (클러스터링에 사용될 수 있음) 속성이 있습니다.
- Erdos Collaboration Network : 불행히도,이 네트워크를 데이터 파일 형식으로 찾지는 못했지만 다소 유명합니다. 누군가 수학자의 전문화 데이터로 네트워크를 풍부하게 할 경우 클러스터링 알고리즘 테스트에도 사용될 수 있습니다.