로그 정규 분포와 전력 법칙 분포 (네트워크 등급 분포)의 차이 해석


22

우선, 저는 통계학자가 아닙니다. 그러나 저는 박사 학위에 대한 통계 네트워크 분석을하고 있습니다.

네트워크 분석의 일환으로 네트워크 정도의 보완 누적 분포 함수 (CCDF)를 플로팅했습니다. 내가 찾은 것은 기존의 네트워크 배포 (예 : WWW)와 달리 배포는 로그 정규 분포에 가장 잘 맞는다는 것입니다. 나는 그것을 권력 법칙에 맞추고 Clauset et al의 Matlab 스크립트를 사용하여 곡선의 꼬리가 잘린 힘 법칙을 따른다는 것을 알았습니다.

여기에 이미지 설명을 입력하십시오

점선은 법칙 적합을 나타냅니다. 자주색 선은 로그 정규 적합을 나타냅니다. 녹색 선은 지수 적합을 나타냅니다.

내가 이해하기 위해 고군분투하는 것이 이것이 무엇을 의미합니까? 나는이 주제를 약간 다루는 Newman의이 논문을 읽었습니다 : http://arxiv.org/abs/cond-mat/0412004

아래는 내 거친 추측입니다.

정도 분포가 전력 법칙 분포를 따른다면, 그것은 링크와 네트워크 정도의 분포에 선형 우선적 부착이 있음을 의미한다는 것을 이해합니다 (풍부한 효과가 더 풍부하거나 성체 처리).

내가보고있는 대수 정규 분포를 사용하면 곡선의 시작 부분에 하위 선형 우대 부착이 있고 권력 법에 의해 적합하게 될 수있는 꼬리쪽으로 더 선형이된다고 말하는 것이 맞습니까?

또한 랜덤 변수 (예 : X)의 로그가 정규 분포 일 때 로그 정규 분포가 발생하기 때문에 이는 로그 정규 분포에서 X보다 작은 값이 많고 X의 큰 값이 작다는 의미입니다. 전력 법칙 분포를 따르는 랜덤 변수는?

더 중요한 것은 네트워크 정도 분포와 관련하여 로그 정규 우선 순위 첨부 파일에 여전히 스케일이없는 네트워크가 제안됩니까? 저의 본능은 곡선의 꼬리가 전력 법칙에 의해 적합 할 수 있기 때문에 네트워크는 여전히 스케일이없는 특성을 나타내는 것으로 결론 지을 수 있습니다.


2
마이크, 나는 당신이보고있는 줄거리를 보는 것이 매우 흥미로울 것이라고 생각합니다. 답을 포함시키기 위해 답을 편집 하시겠습니까? 내가 즉시 알아 차린 한 가지는 권력 법과 우선적 애착에 관한 함의가 거꾸로 있다는 것입니다. (일부) 우선적 부착 체계는 전력 법칙 정도 분포를 생성하지만 그 반대의 의미는 사실이 아닙니다 (즉, 유일한 방법은 아닙니다). 어떤 종류의 네트워크를보고 있는지에 대한 정보도 도움이 될 수 있습니다. 건배.
추기경

1
우선적 인 애착이 단순히 "풍부 해지다"효과의 또 다른 이름 일 뿐입니 까? 그렇다면 선형 (전력 법) 네트워크 등급 분포는 우선 순위 첨부를 보여줄 수있는 많은 등급 분포 중 하나일까요? 다시 말해서, 곡선의 기울기가 로그-로그 플롯에서 음수 인 한, 분포에 관계없이 우선 부착의 요소가 있습니까? 그렇다면 로그 정규 분포와 전력 법칙 분포의 차이는 우선적 인 첨부 파일이 있는지 여부에 비례하지 않습니다.
Mike

1
우선 첨부는 네트워크에 대한 전력 법칙 분포를 생성 하는 (확률 적) 프로세스입니다 . 선의 기울기는 전력 법칙의 스케일링 지수에 따라 변경되지만 로그 정규의 경우 플롯은 꼬리에서도 선형 이 아닙니다 . 생존 분포의 구배 는 효과가 무엇이든 항상 부정적입니다. (왜?)
추기경

아주 좋은 편집입니다. 고마워, 마이클! 표시된 영역에 로그 정규 적합이 매우 뛰어납니다. 꼬리가 약간 부서져있는 것 같습니다.
추기경

답장을 다시 보내 주셔서 감사합니다. 따라서 내가 관찰하고있는 네트워크에서 우선 첨부 파일이 여전히 작동한다는 데 동의하십니까? 또 다른 질문은 네트워크에 스케일이 없는지 여부입니다. 기본 첨부 파일이 네트워크에서 작동하고 네트워크가 새 구성원을 사용하는 한 네트워크 등급 분포가 선형이 아니더라도 네트워크는 스케일이없는 것으로 분류 될 수 있습니다. 이것은 내가 확실하지 않은 곳입니다.
Mike

답변:


12

질문을 두 부분으로 나누는 것이 도움이 될 것이라고 생각합니다.

  1. 경험적 분포의 기능적 형태는 무엇입니까? 과
  2. 이 기능 형태는 네트워크에서 생성 프로세스에 대해 무엇을 의미합니까?

>0.1엑스15<0.1 을 주면 눈에 잘 맞아도 말할 수 없습니다. 로그 정규 적합이 더 나은지 여부 결정기본적으로 같은 일을하는 것을 의미합니다. 보유한 정도 분포 데이터의 생성 프로세스로 해당 모델을 거부 할 수 있습니까? 그렇지 않은 경우, 로그 노멀을 "가능한"카테고리에 넣을 수 있습니다.

엑스1

두 번째 질문은 실제로 두 가지 중 더 어렵다. 일부 사람들이 위의 의견에서 지적했듯이 권력 법 배포를 생성하는 많은 메커니즘이 있으며 (모든 변형과 영광에서) 우선적 첨부는 많은 것 중 하나입니다. 따라서 데이터에서 전력 법칙 분포 (필요한 통계 테스트를 통과 한 실제 법칙)를 관찰하는 것만으로 는 생성 프로세스가 우선적으로 첨부 되었다는 결론을 내릴 수있는 충분한 증거아닙니다 . 또는보다 일반적으로 데이터에서 일부 패턴 X를 생성하는 메커니즘 A가있는 경우 (예 : 네트워크의 로그 정규 분포). 데이터에서 패턴 X를 관찰한다고해서 데이터가 메커니즘 A에 의해 생성되었다는 증거는 아닙니다. 데이터가 A와 일치하지만 A가 올바른 메커니즘이라는 의미는 아닙니다.

A가 답이라는 사실을 실제로 나타내려면, 기계적인 가정을 직접 테스트하고 그것들도 시스템에 대해 보유하고 있음을 보여 주어야하며, 메커니즘에 대한 다른 예측도 데이터에 포함되어 있음을 보여 주어야합니다. Sid Redner ( 이 논문 의 그림 4 참조)는 가정 테스트 부분의 훌륭한 예 를 인용했으며, 인용 네트워크의 경우 선형 우선 첨부 파일 가정이 실제로 데이터에 포함되어 있음을 보여주었습니다.

마지막으로, "스케일없는 네트워크"라는 용어는 문헌에 과부하가 걸리므로 피하는 것이 좋습니다. 사람들은 그것을 사용하여 전력 법칙 분포가있는 네트워크를 참조 하고(선형) 우선 첨부에 의해 성장한 네트워크에. 그러나 방금 설명했듯이이 두 가지는 동일하지 않으므로 단일 용어를 사용하여 두 용어를 모두 사용하는 것은 혼란 스럽습니다. 귀하의 경우, 로그 정규 분포가 고전 선형 우선 첨부 체계와 완전히 일치하지 않으므로 log-normal이 질문 1에 대한 답변이라고 생각하면 (내 답변에서) 네트워크가 ' 그런 의미에서 자유 롭다. 이 경우 전력 법칙 분포로서 상단 꼬리가 '괜찮다'는 사실은 의미가 없습니다. 경험적 분포의 상단 꼬리 부분에는 항상 해당 테스트를 통과 할 것이기 때문입니다. 계속 진행할 데이터가 많지 않으면 전력이 손실됩니다 (정확한 상단 꼬리에서 발생 함).


상단 꼬리에 대한 p- 값에 대해 말할 때 <와>을 섞었습니까?
David Nathan

이 의견의 p- 값 조건이 맞습니다. 여기에 언급 된 p- 값은 arxiv.org/abs/0706.1062의 섹션 4.1에서 가져 왔습니다 . 여기서 큰 값은 적절한 값을 나타내고 작은 값은 나쁜 값을 나타냅니다. 특히 17쪽에있는 각주 8을 보라.
Jonathan S.

3

멋진 질문입니다. 질문 한 질문과 관련하여 이와 관련된 대화가 있습니다.CrossValidated의 다른 곳에서 있습니다.. 거기에서 나는 감마 분포가 노드의 연속적인 "인기"특성에 관계가있을 가능성이있는 소셜 네트워크의 시뮬레이션에 사용하기에 적합한 분포인지 물었다. @NickCox는 대신 로그 정규 분포를 사용하도록 제안했습니다. 나는 로그 정규 분포는 인기가 많은 양의 임의의 변수 (예 : 부, 소득, 신장, 성적 능력, 격투, IQ)의 산물로 해석 될 수 있기 때문에 인기를 설명하는 기본 과정으로서 이론적 정당성이 있다고 대답했다. 이것은 권력 법칙에 대한 이론적 정당화보다 나에게 더 의미가 있으며, 경험적 데이터와 관련이 있습니다. 이는 권력 법의 형태가 정도 분포의 네트워크 간 변동을 설명하기에는 너무 융통성이 없음을 나타냅니다. 대수 이에 비해, 높은 분산을 위해 모드가 0에 가까워지면서 매우 유연한 형태를 갖습니다. 또한, 우선적 인 부착 효과로 인해 분산에 따라 차수 분포의 왜곡이 증가해야한다는 것이 합리적입니다.

요약하면, 로그 정규 분포는 거듭 제곱 법 또는 지수 분포보다 학위 분포 형성의 기본 프로세스를 더 잘 설명하기 때문에 로그 정규 분포가 데이터에 가장 적합하다고 생각합니다.


2

기포 분포를 세고 점도 데이터에 대해 전력 법칙을 사용한 후이 사이트로옵니다.

Clauset et al.의 Power Law 논문의 예제 데이터 세트를 살펴보기. 그들은 논증을 뒷받침하기 위해 권력 법 데이터 세트와는 거리가 먼 실제 데이터 세트 공포를 내놓았습니다. 상식에서 나는 확실히 전력 법칙 함수를 대부분의 데이터 범위 전체에 맞추려고하지 않았을 것입니다. 그러나 실제 환경에서 자체 크기 조정 동작은 관찰 된 시스템의 일부에 걸쳐 유효하지만 일부 시스템 속성이 물리적 또는 기능적 한계에 도달하면 분류됩니다.

아래의 매우 읽기 쉬운 논문은 관찰 행동 기반 인구 행동 모델을 기반으로 권력 법 및 관련 분포에 대해 잘 논의한 생태학자를위한 성장 곡선 피팅을 참조합니다.

저자는 Clauset et al.보다 훨씬 실용적입니다. 인용 : "... 목표가 최상의 피트이고 데이터 세트의 스케일 윈도우 밖의 스케일이 논의되지 않은 경우, 모델이 양호한 피트를 생성하고 연구 된 스케일 윈도우 내에서 최대 값 또는 최소값을 생성하지 않는다면 어떤 모델이라도 충분할 수 있습니다 " "파라미터 값을 비교하기 위해 다른 연구자들이 데이터에 적용한 것과 같이 종종 동일한 모델을 피팅해야하지만, 더 나은 피팅 모델이나 더 나은 예상 모델을 적용하는 것 외에도이를 수행 할 수 있습니다. 모양 또는 둘 다. " 편안한 말.

Tjørve, E. (2003). 종-면적 곡선의 모양과 기능 : 가능한 모델의 검토. 생물 지리학 저널, 30 (6), 827-835.

Tjørve, E. (2009). 종-면적 곡선의 모양과 기능 (ii) : 새로운 모델과 매개 변수의 검토. 생물 지리학 저널, 36 (8), 1435-1445.


1

위의 결과는 정도 분포가 거듭 제곱 법칙과 대수 정규 법 모두가 될 수 있음을 보여줍니다. 이는 소규모의 세계와 규모가없는 속성이 연구중인 네트워크에 공존한다는 것을 암시합니다. 우선 부착이있는 네트워크에 스케일이 없는지 (상수 스케일링 매개 변수 사용) 여부를 검사하려면 종종 실험 설계가 필요합니다. 위에서 언급 한 Sid Redner의 기사에서 성장률은 성장 메커니즘을 이해하는 데 사용됩니다. Gallos, Song 및 Makse는 네트워크를 커버하기 위해 상자를 사용하고 NB (1B) ~ lB ^ -dB 인 경우 네트워크 등급 분포가 전력 법칙 분포를 따른다는 결론을 내립니다. 또는 군집 계수와 정도의 관계를 조사합니다 (관계가 권력 법을 만족시키는 지 여부). 그렇지 않으면, 계층 적 네트워크는 작은 세계와 규모가없는 네트워크 속성을 모두 가지고 있다고 논의됩니다. (프랙탈 스케일 프리 입력,

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.