Moran 's I에 대한 강력한 대안


19

공간 자기 상관의 척도 인 Moran 's I 는 특히 강력한 통계는 아닙니다 (공간 데이터 속성의 왜곡 된 분포에 민감 할 수 있음).

공간 자기 상관을 측정하기위한 더 강력한 기술 은 무엇입니까 ? R과 같은 스크립팅 언어로 쉽게 구할 수있는 솔루션에 특히 관심이 있습니다. 솔루션이 고유 한 상황 / 데이터 배포에 적용되는 경우 답변에 해당 솔루션을 지정하십시오.


편집 : 몇 가지 예를 들어 질문을 확장하고 있습니다 (원래 질문에 대한 의견 / 답변에 대한 응답으로)

순열 기법 (Monta Carlo 프로 시저를 사용하여 Moran의 I 샘플링 분포가 생성되는 위치)은 강력한 솔루션을 제공한다고 제안되었습니다. 내 이해는 그러한 테스트 는 Moran의 I 분포 에 대한 가정을 할 필요가 없다는 것입니다 (테스트 통계가 데이터 세트의 공간 구조에 영향을받을 수 있음), 순열 기법이 비정규 적으로 어떻게 수정되는지는 알지 못합니다 분산 속성 데이터 . 나는 두 가지 예를 제공한다. 하나는 지역 모란의 I 통계량에 치우친 데이터의 영향을 보여주는 것이고, 다른 하나는 순열 테스트 하에서도 글로벌 모란의 I-에도 영향을 미친다.

Zhang et al.을 사용하겠습니다 . (2008)은 첫 번째 예제로 분석합니다. 그들의 논문에서 그들은 순열 테스트 (9999 시뮬레이션)를 사용하여 속성 데이터 분포가 로컬 모란의 I 에 미치는 영향을 보여줍니다 . GeoDa에서 원본 데이터 (왼쪽 패널)와 동일한 데이터 (오른쪽 패널)의 로그 변환을 사용하여 납 (Pb) 농도 (5 % 신뢰 수준)에 대한 저자의 핫스팟 결과를 재현했습니다. 원래 및 로그-변환 된 Pb 농도의 박스 플롯도 제시된다. 여기 에서 데이터가 변환 될 때 중요한 핫 스폿 수는 거의 두 배가 됩니다. 이 예는 로컬 통계 Monte Carlo 기술을 사용하는 경우에도 속성 데이터 분포에 민감 함을 보여줍니다 !

여기에 이미지 설명을 입력하십시오

두 번째 예 (시뮬레이션 된 데이터)는 순열 테스트를 사용할 때에도 왜곡 된 데이터가 글로벌 모란의 I 에 미칠 수있는 영향을 보여줍니다 . R 의 예는 다음과 같습니다.

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

P- 값의 차이에 유의하십시오. 기울어 진 데이터는 5 % 유의 수준 (p = 0.167)에 군집이 없음을 나타내며 정규 분포 데이터는 (p = 0.013)임을 나타냅니다.


Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, 아일랜드 골웨이의 도시 토양에서 Pb의 오염 핫스팟을 식별하기 위해 현지 모란의 I 및 GIS 사용, 총 환경 과학, 398 권, Issues 1-3, 2008 년 7 월 15 일 , 페이지 212-221


1
기울어 진 분포에 대한 민감도에 대한 참조가 있습니까?) 비임의 공간 분포에 대한 전역 테스트 또는 국소 비정상 특징 식별에 관심이 있습니까? 관심있는 결과의 분포는 무엇입니까 (양수 변동)?
Andy W

1
AndyW : 1) 시험의 민감도에 대한 하나의 참조는 Fortin and Dale의 '공간 분석, 생태학자를위한 안내서'(p. 125)입니다. 2) 전 세계 및 지역 시험에 대한 솔루션에 관심이 있습니다. 데이터 배포를 염두에 두십시오.
MannyG

1
Andy, Moran의 I는 가중 분산과 공분산 추정치에 기반하기 때문에 추정치와 마찬가지로 특이 치에 대해 동일한 민감도를 갖습니다 (잘 알려진 바와 같이). 이 통찰력은 또한 매니 문제에 대한 여러 가지 가능한 해결책을 제시합니다. 분산 및 연관성 평가의 선호하는 강력한 버전을 대체하여 강력한 가중 상관 관계를 형성하고 있습니다.
whuber

1
@Andy라는 몇 가지 개념을 혼동하고있는 것처럼 들립니다. 첫째, 매니는 자기 상관 을 측정 하려고합니다 . 그는 반드시 가설 테스트를 수행하지는 않습니다. 둘째, 가설 검정의 문제는 견고성보다는 힘 측면에서 가장 잘 구성됩니다. 그러나 (세 번째) 개념과 관련이 있습니다. 강력한 테스트 통계는 분포 가정 (예 : 이상치에 의한 오염)을 위반하는 광범위한 범위에서 그 힘을 유지하는 경향이 있지만 비 강력 테스트 통계는 대부분 또는 전부를 잃을 수 있습니다 그러한 상황에서의 힘.
whuber

1
@ FC84, 나는 작년 에이 문제를 재검토 하고 제안 된 해결책을 작성했습니다 . 그러나 심사가 필요합니다. 나는 어느 시점에서 그 글의 답을 (많은) 축소판으로 제안 할 계획이다. 내가 가진 것에서 당신이 할 수있는 것을 자유롭게 구하십시오. 그러나 조심해서 사용하십시오!
MannyG

답변:


2

(이 시점에서 의견을 제출하기에는 너무 다루기 힘들다)

이는 로컬 및 전역 테스트 (특정한 샘플 독립적 인 자동 상관 측정이 아님)와 관련이 있습니다. 특정 Moran의 I 측정 값 은 상관 관계의 편향된 추정치 (Pearson 상관 계수와 같은 용어로 해석 됨)이며, 순열 가설 검정이 변수의 원래 분포에 어떻게 민감한 지 여전히 알지 못합니다. 유형 1 또는 유형 2 오류와 관련하여).

주석에 제공 한 코드를 약간 수정 (공간 가중치 colqueen가 없음).

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

시뮬레이션 테스트 분포가 본질적으로 변할 것이기 때문에, 치환 테스트를 수행 할 때 (이 경우 공간을 방해하는 것으로 생각하고 싶습니다) 전역 공간 자기 상관 의 가설 테스트 는 변수 분포에 의해 영향을받지 않아야합니다. 원래 변수의 분포와 함께. 가능성 하나는이를 입증하기 더 흥미 시뮬레이션을 가지고 올 수 있지만,이 예제에서 볼 수 있듯이, 관찰 된 시험 통계는 모두 원래의 생성 분포 외부 PLUMB와가 기록 PLUMB(정규 분포에 더 가까워입니다) . 널 (null) 아래에서 로깅 된 PLUMB 테스트 분포는 대칭에 대해 0에 가깝습니다.

여기에 이미지 설명을 입력하십시오

어쨌든 이것을 대안으로 제안하여 분포를 대략 정상으로 바꾸려고했습니다. 나는 또한 공간 필터링 (그리고 Getis-Ord 로컬 및 글로벌 통계와 같은)에 대한 리소스를 찾는 것이 좋습니다. . 나중에 잠재적으로 더 많은 관심 문헌을 게시 할 것입니다.


자세한 계정에 대해 Andy에게 감사합니다. 올바르게 이해하면 순열 검정에서 검정 통계량 (Moran 's I)이 결과 MC 분포와 관련 하여 변경되지 않는다는 것을 암시 하지만 이것은 내 관찰과 일치하지 않습니다. 예를 들어 동일한 콜럼버스 데이터 세트에서 HOVAL 변수를 사용하면 결과 MC Moran의 I 테스트 p- 값이 0.029 (원래 기울어 진 데이터)에서 0.004 (로그 변환 된 데이터)로 MC 사이의 간격이 넓어짐을 나타냅니다 분포 및 검정 통계량-임계 값을 1 %로 설정 한 경우 중요하지 않습니다.
MannyG

1
예, 당신은 내 요점을 올바르게 해석하고 있습니다. 결과가 다른 특정 실행을 찾을 수 있습니다. 문제는 다양한 상황에서 오류율이 동일한 지 여부가됩니다.
Andy W
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.