실제 네트워크 / 그래프의 모든 에지가 통계적으로 우연히 발생할 가능성이 높다는 것은 무엇을 의미합니까?


11

이 백서에 요약 된 백본 네트워크 추출 방법을 사용하고 있습니다 : http://www.pnas.org/content/106/16/6483.abstract

기본적으로 저자는 그래프의 각 가장자리에 대해 가장자리가 우연히 발생할 수있는 확률을 생성하는 통계 기반 방법을 제안합니다. 나는 전형적인 통계적 유의성 컷오프 0.05을 사용합니다.

이 방법을 여러 실제 네트워크에 적용 해 왔으며 흥미롭게도 일부 네트워크는 그다지 중요하지 않습니다. 이것이 네트워크에 수반되는 것을 이해하려고합니다. 내가 방법을 네트워크에 적용한 다른 시간은 내가 생성 한 임의의 네트워크에이 방법을 적용했을 때와 똑같이 중요하지 않았다. 정확히 우리가 기대했던 것이다.

실제 네트워크의 예를 들어, 지난 25 년 동안 미국 상원의 양극화를 보여주는 이코노미스트 (Economist)에서 진행된 최근 네트워크 시각화를 보았을 것입니다 : http://www.economist.com/news/united-states/21591190 -미국-아메 에바 . 이러한 네트워크에 백본 네트워크 추출 방법을 적용했는데 그다지 중요하지 않았습니다. 미가공 가장자리가 우선적으로 부착과 클러스터링을 보여 주지만 이것은 우연의 일입니까? 상원 투표 네트워크 네트워크는 본질적으로 무작위입니까?

답변:


6

백본 방법의 배후 귀무 가설은

k 도의 특정 노드의 연결에 해당하는 정규화 된 가중치는 균일 한 분포에서 임의의 할당에 의해 생성됩니다.

"유의 한"모서리가없는 경우 귀무 가설은 전체 그래프에 대해 유지됩니다. 즉 모서리 가중치는 결절 성향으로 인해 유대를 송수신합니다.

분석중인 관계에 따라 백본 방법이 적합하지 않을 수 있습니다. 이 방법은 개념적으로 단일 모드 가중치 네트워크 인 네트워크에 가장 적합합니다. 2 모드 네트워크는 가중 1 모드 네트워크로 투영 될 수 있지만 종종 그렇게 이해되지 않는 경우가 있습니다.

이코노미스트의 예를 바탕으로 상원 투표를 공유 투표 수에 따라 가중치를 부여하는 단일 모드 네트워크로 분석하는 것은 이치에 맞지 않습니다. 상원에서의 투표는 서명 된 2 가지 모드 관계입니다. 상원 의원은 (i) 법안과 관계가 있으며 투표를하지 않거나 (0) 투표를하지 않거나 (+1) 또는 반대합니다 (-1). 네트워크를 가중 단일 모드 계약 네트워크로 변환하려면 데이터를 심각하게 줄일 수있는 백본 분석을 수행하십시오. 일부 법안은 정치적으로 분열되고 일부 법안은 다른 법보다 더 많은 표를 얻습니다.

백본 방법 대신 조건부 균일 그래프 (CUG) 테스트를 고려할 수 있습니다. 이러한 테스트의 기본 개념은 특정 그래프 수준 속성 (예 : 클러스터링, 평균 경로 길이, 중앙 집중화, 동질성)이 우연에 기인하는지 여부를 확인하는 것입니다. 과정은 다음과 같습니다.

  1. 관측 된 그래프에서 측정 f 를 취하십시오.
  2. 관찰 된 그래프의 특정 속성 (예 : 크기, 모서리 수, 각도 분포 등)을 제어하는 ​​랜덤 그래프 생성
  3. 랜덤 그래프에서 측정 f
  4. null 분포를 생성하려면 2 단계와 3 단계를 여러 번 (예 : 1000) 반복하십시오.
  5. 관측 된 측정 값을 귀무 분포와 비교

2- 모드 네트워크의 경우 관측 된 그래프를 치환하여 랜덤 그래프를 만드는 것이 합리적입니다 (R의 tnet 및 statnet 모두 2- 모드 네트워크를 치환하는 루틴이 있음). 측정 f 에 1 모드 네트워크가 필요한 경우 무작위 모드는 1 모드 네트워크로 투사하기 전에 2 모드 네트워크에서 수행해야합니다.


4

인용 한 기사에서 저자는 복잡한 네트워크에서 "[노드] 노드는 [모델링 된] 시스템의 요소를 나타내며 가중 된 모서리는 상호 작용 의 존재 와 상대 강도를 식별합니다 "라고 강조합니다. .

당신이 연구하는 네트워크에서, 내가 이코노미스트 기사를 올바르게 이해한다면, 두 상원 의원이 적어도 100 회 이상 투표 한 경우에 상원 의원이 연결되어 있습니다. 따라서 링크는 상호 작용을 모델링하지 않고 상원 의원 투표 행동 간의 유사성을 모델링합니다. 내 경험상 유사 네트워크는 이기종이 아니라는 점에서 상호 작용 네트워크와 같은 정도의 분포를 나타내지 않습니다. 또한 네트워크 (여기서 100)를 추출 할 때 사용되는 임계 값 매개 변수는 정도 분포에 큰 영향을줍니다.

또한, 나는 이코노미스트 기사에서 가중치에 대한 언급을 찾을 수 없었습니다. 그러나 무게의 존재는 Ångeles Serrano et al . 의 연구에서 설명 된 방법에서 중요한 포인트 인 것으로 보인다 . 당신은 당신의 질문을 인용합니다.

이 두 가지 관찰 결과에서이 유형의 네트워크를 처리하도록 설계되지 않았기 때문에이 데이터에서이 방법이 정확하게 수행되지 않을 수 있습니다. 정도 분포를 확인할 수 있습니다. 특성 값 또는 이기종 중심입니까? 그리고 무게는 어떻습니까?


소스 웹 사이트에서 직접 데이터를 재생산했기 때문에 가중치를 포함 시켰으며 임의 컷오프 임계 값을 적용하지 않았습니다. 따라서 백본 방법을 적용한 데이터는 이러한 문제의 영향을받지 않아야한다고 생각합니다. 정도 분포를 확인하는 것이 좋습니다-살펴 봐야합니다!
랜디 올슨
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.