두 개의 공간 포인트 패턴을 비교합니까?


41

동일한 지역 내에 두 개의 점 패턴 분포가있는 경우이 두 분포를 시각적으로 그리고 양적으로 비교하려면 어떻게해야합니까?

또한 작은 지역 내에 많은 점이 있다고 가정하면 핀 맵을 표시하는 것은 유익하지 않습니다.

답변:


32

항상 그렇듯이 목표와 데이터의 특성에 따라 다릅니다. 들면 완전히 맵핑 데이터 강력한 도구 리플리 L 함수의 가까운 친척 인 리플리 K 함수 . 많은 소프트웨어가 이것을 계산할 수 있습니다. ArcGIS가 지금 쯤 할 수도 있습니다. 확인하지 않았습니다. CrimeStat 가합니다. GeoDa와 R마찬가지 입니다. 관련지도와 함께 사용하는 예가

Sinton, DS 및 W. Huber. 폴카와 미국의 인종 유산을 매핑합니다. 지리학 Vol. 106 : 41-47. 2007 년

다음은 Ripley 's K의 "L 함수"버전에 대한 CrimeStat 스크린 샷입니다.

리플리의 K 함수 스크린 샷

파란색 곡선은 임의의 분포의 L- 함수에 대한 파란색 흔적이있는 곳인 0을 둘러싼 빨간색과 초록색 밴드 사이에 있지 않기 때문에 매우 무작위로 점의 분포를 기록합니다.

대한 샘플 데이터, 많은 샘플링의 성격에 따라 달라집니다. 수학과 통계에 대한 배경 지식이 부족한 사람들이 이용할 수있는 좋은 자료는 Steven Thompson의 Sampling 교재입니다 .

대부분의 통계적 비교는 그래픽으로 표현 될 수 있고 모든 그래픽 비교는 통계적 대응에 상응하거나이를 제안하는 경우가 일반적이다. 따라서 통계 문헌에서 얻은 아이디어는 두 데이터 세트를 매핑하거나 그래픽으로 비교하는 유용한 방법을 제안 할 가능성이 있습니다.


Dixon 논문에 감사드립니다. 훌륭한 자료 인 것 같습니다. 나는 다변량 패턴에 대한 공간적 상호 작용과 랜덤 라벨링의 차이점을 결코 발견하지 못했습니다. 읽어야합니다.
Andy W

좋은 자원 +1. "어류의 90 %가 호수의 10 %에있다"는 구식 어업 진실은 실제로 샘플링 방법에 달려 있습니까?
Kirk Kuykendall

@Kirk 우리 중 많은 사람들에게 0 %의 물고기가 실제로 도달 할 수있는 호수의 10 %에 있습니다!
whuber

14

참고 : 다음은 whuber의 의견에 따라 편집되었습니다.

Monte Carlo 접근 방식을 채택 할 수 있습니다. 다음은 간단한 예입니다. 범죄 이벤트 A의 분포가 통계적으로 B의 분포와 유사한 지 여부를 결정하려는 경우 A와 B 이벤트 사이의 통계를 무작위로 재 할당 된 '마커'에 대한 이러한 측정의 경험적 분포와 비교할 수 있습니다.

예를 들어 A (흰색)와 B (파란색)의 분포를 고려하면

여기에 이미지 설명을 입력하십시오

레이블 A 및 B를 결합 된 데이터 세트의 모든 지점에 무작위로 재 할당합니다. 다음은 단일 시뮬레이션의 예입니다.

여기에 이미지 설명을 입력하십시오

이 과정을 여러 번 반복하고 (예 : 999 회), 각 시뮬레이션에 대해 무작위로 레이블이 지정된 점을 사용하여 통계 (이 예제에서 가장 가까운 인접 통계)를 계산합니다. 뒤 따르는 코드는 R에 있습니다 ( 스팻 스타트 라이브러리를 사용해야 함 ).

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

그런 다음 결과를 그래픽으로 비교할 수 있습니다 (빨간 세로선이 원래 통계 임).

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

여기에 이미지 설명을 입력하십시오

또는 숫자로.

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

가장 가까운 가장 가까운 이웃 통계는 문제에 대한 최상의 통계 수단이 아닐 수 있습니다. K- 함수와 같은 통계가 더 드러날 수 있습니다 (whuber의 답변 참조).

위의 내용은 Modelbuilder를 사용하여 ArcGIS 내부에서 쉽게 구현할 수 있습니다. 루프에서 속성 값을 각 지점에 무작위로 다시 할당 한 다음 공간 통계를 계산합니다. 결과를 테이블에 집계 할 수 있어야합니다.


2
커널 밀도 접근 방식 대신 순열 테스트 인 Manny를 고려할 수 있습니다. 귀무 가설은 파란색과 흰색 레이블이 점과 무관하다는 것입니다. 이를 테스트하려면 주변에 적합한 통계를 사용하십시오 (예 : 거리를 따라 이동하는 파란색 점과 흰색 점 사이의 가장 가까운 평균 거리). 동일한 양의 파란색과 흰색을 유지하면서 모든 점에 색상을 임의로 재 할당하고 통계량을 다시 계산합니다. 통계의 null 분포를 추정하려면 여러 번 반복하십시오. p- 값을 구하려면이 분포에 대한 통계의 실제 값을 참조하십시오.
whuber

고마워 whuber. 이것을 마크 포인트 문제로 본 적이 없었습니다. 이 접근법을 반영하기 위해 답변을 업데이트했습니다. 그러나 원래의 접근 방식 (예 : 커널 밀도 그리드를 사용하여 임의의 점을 생성)이 다른 결과를 가져온 이유는 분명하지 않습니다. 사실, (원래의 해결책) A와 B가 비슷한 과정에서 나온 사실을 충실히 반영하지 못했습니다. 커널 밀도 접근 방식이 포인트 데이터에서 제공 한 세부 정보를 활용하지 않기 때문입니까?
MannyG

1
커널 밀도에는 작은 임의의 요소가 있습니다 (반폭 선택과 관련됨). 이것은 차이를 만들 수 있습니다. 또한 실제로 진행중인 작업에서 다소 제거되었습니다. 기본 프로세스가 포인트를 생성합니다. 당신은 그 과정에 대한 하나의 실현을 보게됩니다. 당신은 그것 의 KDE를 만듭니다 ; 그런 다음 KDE에서 새로운 실현을 이끌어냅니다. 실제로는 단일 구성과 매우 유사한 새 구성을 재현하고 있습니다. 순열 접근법에서 두 분포가 동일하다는 귀무 가설은 표시를 순열하는 것을 정당화합니다. 이는 직접적이고 강력합니다.
whuber

1
의견을 보내 주셔서 감사합니다. 시간이 더 있으면 더 자세한 설명을 드리겠습니다. 이 R 코드를 주목하는 것이 좋으며 (답변에 R 코드라고 언급 했습니까?) spatstat패키지의 함수를 사용 합니다.
Andy W

2
+1, 이와 같은 순열 테스트를 사용하는 것에 대한 좋은 점 중 하나는 지오 코더의 특정 성 (대부분의 상황에서 범죄 데이터의 주소 또는 주소 범위)으로 제한 될 때 완전한 공간 랜덤 성과 비교하여 포인트 패턴을 평가할 때도 마찬가지입니다. 많은 의미. 2) 이러한 순열 테스트는 에지 효과 문제를 피합니다. 물론 이것은 과도하게 생성 된 것이지만, 이러한 프레임 워크는 여러 유형의 포인트 패턴 통계를 평가하기 위해 일반화 될 수 있다고 생각합니다.
Andy W

4

CrimeStat를 확인하십시오.

웹 사이트에 따르면 :

CrimeStat는 Ned Levine & Associates가 개발 한 범죄 사건 위치를 분석하기위한 공간 통계 프로그램입니다. 2002-IJ-CX-0007 및 2005-IJ-CX-K037). 이 프로그램은 Windows 기반이며 대부분의 데스크탑 GIS 프로그램과 인터페이스합니다. 그 목적은 법 집행 기관과 형사 사법 연구원들이 범죄 대응 노력에 도움이되도록 보충적인 통계 도구를 제공하는 것입니다. CrimeStat는 전 세계의 많은 경찰서와 형사 사법 및 기타 연구원들에 의해 사용되고 있습니다. 최신 버전은 3.3 (CrimeStat III)입니다.


2

간단하고 빠른 접근 방식은 히트 맵과이 두 히트 맵의 차이 맵을 만드는 것입니다. 관련 : 어떻게 효과적인 열지도를 구축?


3
불행히도, 두 보간 또는 스무딩 맵을 구별하는 것은 데이터에 대한 보간 또는 스무딩 방법에 대해 훨씬 더 많은 것을 알려주는 경향이 있습니다. 그냥 보간 하나의 데이터 세트의. 넌. 이에 개의 보간 맵을 비교하여 절반의 오류를 제거 타방의 보간 값을 한 세트의 실제 데이터를 비교하는 보간 참고 수는 데이터 평활화의 많은 종류의 유효하지 않은 것은 부적당 다른 종류의 데이터
whuber

이 방법이 많은 종류의 입력 데이터에 적합하지 않다는 데 동의합니다. 포인트 밀도 패턴을 분석 할 때 좋은 인상을 줄 수 있다고 생각합니다.
underdark

보간이 전문가에 의해 수행되고 신중하게 해석 될 때 당신이 정확하다는 것은 의심의 여지가 없습니다.
whuber

2

공간적 자기 상관에 관한 문헌을 검토했다고 가정합니다. ArcGIS에는 도구 상자 스크립트를 통해이를위한 다양한 포인트 앤 클릭 도구가 있습니다 : 공간 통계 도구-> 분석 패턴 .

거꾸로 작업 할 수 있습니다. 도구를 찾고 구현 된 알고리즘을 검토하여 시나리오에 적합한 지 확인하십시오. 나는 토양 광물의 발생에서 공간적 관계를 조사하는 동안 Moran 's Index를 언젠가 다시 사용했습니다.


2

여러 통계 소프트웨어에서 이변 량 상관 분석을 실행하여 두 변수와 유의 수준 사이의 통계 상관 수준을 결정할 수 있습니다. 그런 다음 클로로 플 로스 체계를 사용하여 하나의 변수를 매핑하고 눈금이있는 기호를 사용하여 다른 변수를 매핑하여 통계 결과를 백업 할 수 있습니다. 일단 오버레이되면, 어떤 영역이 높음 / 높음, 높음 / 낮음 및 낮음 / 낮음 공간 관계를 나타내는 지 결정할 수 있습니다. 이 프레젠테이션 에는 좋은 예가 있습니다.

고유 한 지리 시각화 소프트웨어를 사용해 볼 수도 있습니다. 이 유형의 시각화를 위해 CommonGIS를 정말 좋아합니다. 이웃 (예를 들어)을 선택할 수 있으며 유용한 통계 및 플롯을 즉시 사용할 수 있습니다. 다중 변수 맵의 분석이 매우 수월해집니다.


2
이것들은 좋은 생각이지만 속성이 일반적인 기능 세트에 해당하기 때문에 참조하는 예제가 성공적임을 알 수 있습니다. 본 질문에서, 특징들은 서로 다른 위치를 가지며 그 위치는 임의의 변수이다 (예를 들어, 고정 된 관리 단위가 아님). 한 위치의 값을 다른 위치의 값과 관련 짓기위한 의미있는 절차를 찾아야하고 위치 자체의 임의적 인 특성에 대처해야하기 때문에 이는 중요한 합병증입니다.
whuber

그 설명에 감사드립니다! I 영업을 MIS는 읽기하고 (DA / CT 등과 같은) 위치 / 지리적 인 범위를 공유하는 두 개의 독립 변수를 추정 하였다
마이클 Markieta

1

쿼드 랏 분석이 이것에 좋을 것입니다. 다른 포인트 데이터 레이어의 공간 패턴을 강조 표시하고 비교할 수있는 GIS 접근 방식입니다.

여러 포인트 데이터 레이어 사이의 공간 관계를 정량화하는 4 차 분석의 개요는 http://www.nccu.edu/academics/sc/artsandsciences/geospatialscience/_documents/se_daag_poster.pdf 에서 확인할 수 있습니다 .


1
(1) 링크는 404입니다 (그래서 우리는 모든 링크의 요약을 포함하도록 답변을 요청합니다). (2) 사변형 분석이 두 점 분포를 얼마나 정확하게 비교 합니까?
whuber

(1) 링크가 작동 할 수 있습니다. (2) 사변형 분석은 주어진 영역을 적절한 크기의 동일한 크기의 단위로 나눕니다. 그런 다음 확률 분석을 사용하여 각 쿼드 렛 내 포인트의 실제 주파수와 각 주파수의 예상 값을 결정합니다. ArcMap의 공간 분석 확장에서 포인트 밀도 명령과 구역 통계를 테이블 도구로 사용하여 회귀 분석을 위해 이러한 포인트 피처 클래스를 요약 할뿐만 아니라 고밀도 포인트 위치에 근접한 영역을 강조 할 수 있습니다.

점 분포의 일 변량 분석 절차를 설명했습니다 . 두 프로세스의 동시 발생 정도를 비교하기 위해 (사분면 상관 관계를 평가하여) 조정할 수 있지만 두 가지 중요한 한계가 있습니다. 먼저, 거리의 함수로서 프로세스 간의 관계를 연구하지 않습니다. 둘째, 점을 쿼드 로 비닝 하면 전력이 손실됩니다. 전력 손실은 중요한 패턴을 식별하지 못하거나 조사 목표를 달성하기 위해 더 많은 데이터를 수집해야 함을 의미합니다.
whuber

포인트 분포의 다변량 분석에이 "프로 시저"를 사용했습니다. 전력 손실을 의미하지만 고유 한 집계 수준에서 두 점 패턴 분포를 시각적으로 정량적으로 비교할 수있는 방법을 제공합니다 (원래 질문에 대한 솔루션).

우리 사이트에서 읽은 내용이 미래의 대체 접근 방식을 고려할 수 있기를 바랍니다. 데이터를 최대한 활용하고 제한된 연구 리소스를 활용할 수있는 능력을 확대 할 것입니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.