네트워크 분석 클래식 데이터 세트


10

기계 학습 분류 / 회귀 작업에 대한 몇 가지 고전적인 데이터 세트가 있습니다. 가장 인기있는 것은 :

그러나 네트워크 분석 / 그래프 이론에 대한 유사한 데이터 세트를 아는 사람이 있습니까? 더 구체적- 비교 / 평가 / 학습을 위한 Gold 표준 데이터 세트를 찾고 있습니다.

  1. 중심성 측정;
  2. 네트워크 클러스터링 알고리즘.

공개적으로 사용 가능한 네트워크 / 그래프 목록이 필요하지는 않지만 실제로 알아야 할 몇 가지 데이터 세트가 있습니다.

편집하다:

"골드 표준 데이터 세트"에 정확한 기능을 제공하는 것은 매우 어렵지만 여기에 몇 가지 생각이 있습니다. 실제 클래식 데이터 세트는 다음 기준을 충족해야한다고 생각합니다.

  • 기사 및 교과서에서 여러 참조;
  • 잘 알려진 네트워크 분석 소프트웨어 패키지에 포함
  • 충분한 존재 시간;
  • 그래프 분석에 대한 여러 과정에서의 사용법.

관심 분야와 관련하여 정점 및 / 또는 사전 계산 된 (또는 사전 정의 된) "권한 점수"(예 : 중심성 추정)에 대한 레이블이있는 클래스도 필요합니다. 이 질문을 한 후 검색을 계속했으며 적절한 예가 있습니다.

  • Zachary 's Karate Club : 1977 년에 소개되었으며, Google Scholar에 따르면 1.5k 번 이상 인용 된 정점은 Faction (클러스터링에 사용될 수 있음) 속성이 있습니다.
  • Erdos Collaboration Network : 불행히도,이 네트워크를 데이터 파일 형식으로 찾지는 못했지만 다소 유명합니다. 누군가 수학자의 전문화 데이터로 네트워크를 풍부하게 할 경우 클러스터링 알고리즘 테스트에도 사용될 수 있습니다.

1
"골드 표준 데이터 세트"를보다 객관적인 방식으로 정의함으로써이 질문을 개선 할 수 있다고 생각합니다. 무엇이 "알아야"하는가? 여러 교과서에서 참조해야합니까? 다수의 출판 된 모델에 사용됩니까? 그렇지 않으면 답변은 주관적이며 시간이 지남에 따라 변경됩니다. 여기서 나쁜 조합.
Air

답변:


5

당신이 찾고있는 것은 KONECT 에서 찾을 수 있습니다 (웹 사이트는 쓰지 못했지만 곧 수정 될 것입니다!). 네트워크 분석을위한 가장 포괄적 인 데이터 수집입니다. 그러나 문제는 어느 것이 더 표준 적인가?

Zachary 's Karate Club을 제외하고는 분명한 대답이 없습니다!

Community Detection 알고리즘에서 문헌 검토를 수행하면 거의 모든 빛나는 논문이 다른 네트워크를 사용한다는 것을 알 수 있습니다. Andrea Lancichinetti와 Santo Fortunato가 벤치마킹 그래프를 위해 한 일을 제안합니다. 그들은 예 몇 가지 벤치 마크 그래프 생성 알고리즘 제안 이 하나 .

그것이 도움이되기를 바랍니다 :)




1

내가 아는 유일한 것은 Neo4j와 같은 그래프 데이터베이스의 벤치 마크 데이터입니다.

이와 비슷한 링크를 찾을 수 있습니다 : http://istc-bigdata.org/index.php/benchmarking-graph-databases/

네트워크 분석 및 그래프 이론을 테스트 할 데이터를 찾을 수 있습니다.

또한 Twitter / Facebook의 API를 사용하여 자신의 데이터를 수집 할 수 있습니다. 당신이 찾고있는 데이터를 찾을 수없는 경우에도 제안입니다.


고마워요,하지만 제가 정확히 찾는 것은 아닙니다. 자세한 내용은 업데이트를 참조하십시오.
sobach
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.