공간 프로세스에 대한 파라미터 추정


12

나는 주어진있어 양의 정수 값의 격자. 이 숫자는 그리드 위치를 점유하는 사람의 믿음의 강도 (높은 믿음을 나타내는 높은 값)에 해당하는 강도를 나타냅니다. 사람은 일반적으로 여러 그리드 셀에 영향을 미칩니다.n×n

나는 강도의 패턴이 "가우시안 (Gaussian)"이되어야한다고 생각하는데, 이는 강도의 중심 위치가있을 것이고, 그 강도는 모든 방향으로 방사상으로 가늘어진다. 구체적으로, 분산에 대한 매개 변수와 스케일 팩터에 대한 매개 변수를 사용하여 "스케일 가우시안"에서 오는 값을 모델링하고 싶습니다.

두 가지 복잡한 요소가 있습니다.

  • 사람이 없으면 배경 소음 및 기타 효과로 인해 0 값에 해당하지 않지만 값은 작아야합니다. 그러나 불규칙 할 수 있으며 첫 번째 근사에서는 단순한 가우스 잡음으로 모델링하기가 어려울 수 있습니다.
  • 강도 범위는 다를 수 있습니다. 일례로, 값의 범위는 1 내지 10, 다른 경우는 1 내지 100 일 수있다.

적절한 매개 변수 추정 전략 또는 관련 문헌에 대한 포인터를 찾고 있습니다. 내가 왜이 문제에 접근하고 있는지에 대한 포인터는 모두 잘못 인식 될 것입니다 :). 나는 kriging과 Gaussian 프로세스에 대해 읽었지만 내 문제에 매우 무거운 기계처럼 보입니다.


1
분산 스케일 모수를 가진 가우시안은 무엇을 의미 합니까? 분산 파라미터 가우시안의 스케일 파라미터입니다! 또한 지금까지 설정 한 모델에 대해 잘 모르겠습니다. 실제로 해결하려는 문제를 더 자세히 설명 할 수 있습니까? 가우시안을 사용하여 낮은 입도 정수 값 관측 값을 모델링하면 비린내가 보입니다.
추기경

(+1) 흥미로운 질문입니다. 조금 더 나은 것을 이해하려고 노력하고 있습니다.
추기경

다음은 몇 가지 관찰 사항입니다. 1. 값이 정수인 경우 가우시안을 사용하는 것이 적절하지 않은 것 같습니다. 2. 모델의 목적이 무엇인지 확실하지 않습니다. 예를 들어, 강한 믿음의 클러스터를 식별 하시겠습니까? 매개 변수가 있다면 무엇을 해석해야합니까? 3. 그리드가 있으므로 이변 량 분포의 혼합을 시도해 보지 않겠습니까? 그런 다음 그리드는 분포를지지하고 (예 : 단위 제곱) 강도는 확률이 높은 영역에 해당합니다.
mpiktas

흥미로운 점에 감사드립니다. 명확히하려고 노력하겠습니다. 의견에 비추어 "가우시안 (Gaussian)"의 선택은 도움이되는 것보다 더 많은 혼란을 야기하는 붉은 청어 일 수 있습니다. 데이터의 주요 특징은 사람의 위치를 ​​가장 잘 믿는 시점에서의 높은 강도 값과 그 주변에서 "방사형"으로 점점 줄어드는 것입니다 (실증적으로 관찰했습니다). 강도 값은 솔루션에서 (선형) 역 문제로 오기 때문에 실제로 반드시 적분 일 필요는 없습니다. 이는 우리가 가진 데이터 일뿐입니다.
Suresh Venkatasubramanian

btw 질문을보다 잘 정의하고 더 잘 모델링하려는 시도에 감사드립니다. 올바른 모델링 가정에 수렴하기 위해 실제 데이터 설정을 설명하기 위해 최선을 다하겠습니다.
Suresh Venkatasubramanian

답변:


5

아래에서 설명하는 공간 데이터 분석 방법에 pysal python 라이브러리 의이 모듈을 사용할 수 있습니다 .

각 사람의 태도가 주변 사람들의 태도에 의해 어떻게 영향을 받는지에 대한 설명은 공간 자기 회귀 모델 (SAR) 로 나타낼 수 있습니다 ( 이 SE 답변 2의 간단한 SAR 설명 참조 ). 가장 간단한 방법은 다른 요소를 무시하고 Moran의 I 통계량 을 사용하여 주변 사람들이 서로의 태도에 미치는 영향의 강도를 추정하는 것 입니다.

더 복잡한 작업 인 주변 사람들의 영향 강도를 추정하면서 다른 요인의 중요성을 평가하려면 회귀 매개 변수를 추정 할 수 있습니다 : . 여기 에서 문서를 참조하십시오 (이 유형의 회귀를 추정하는 방법은 공간 계량 경제학 분야에서 나 왔으며 내가 준 참조보다 훨씬 더 정교해질 수 있습니다).y=bx+rhoWy+e

당신의 도전은 공간 가중치 행렬 ( ) 을 구축하는 것 입니다. 나는 행렬의 각 요소 가 사람 가 다른 사람 에 영향을 줄 필요가 있다고 생각하는 거리 내에 있는지 여부에 따라 1 또는 0이어야한다고 생각합니다 .w i j i jWwijij

이 문제에 대한 직관적 인 아이디어를 얻기 위해, 아래에서는 공간 자기 회귀 데이터 생성 프로세스 (DGP)가 어떻게 패턴을 만드는지 보여줍니다. 시뮬레이션 된 값의 2 개의 격자에 대해 흰색 블록은 높은 값을 나타내고 어두운 블록은 낮은 값을 나타냅니다.

아래의 첫 번째 격자에서 모눈 값은 정규 분포 랜덤 프로세스 (또는 가우스)에 의해 생성되었으며, 여기서 는 0입니다.rho

랜덤 (가우시안)

아래의 다음 격자에서 격자 값은 공간 자기 회귀 과정에 의해 생성되었으며, 여기서 는 .8과 같이 높은 것으로 설정되었습니다. rho여기에 이미지 설명을 입력하십시오


그것은 매우 흥미 롭습니다 (그리고 관련된 Geary C도 마찬가지입니다). 이것은 내가 필요한 것에 가깝습니다.
Suresh Venkatasubramanian

Geary C는 분포 중간에있는 값까지도 서로 클러스터에 가까운 값을 볼 수 있도록 도와줍니다. Moran 's는 매우 높은 값으로 매우 높은 값이 클러스터링되고 매우 낮은 값으로 매우 낮은 값이 클러스터링되는 방법을 알려줍니다. 따라서 아마도 당신은 정확하고 가장 간단하고 가장 좋은 방법은 Geary 's C입니다. Geary의 C 접근 방식은 탐색 적이며 다른 요인에 대한 결과를 조절할 수 없습니다. Geary 's C : pysal.org/1.1/library/esda/geary.html 을 실행하는 코드는이 Python 모듈을 확인하십시오 .
b_dev

이것들을 좀 더 연주하겠습니다. 그것이 내가 원하는 것을하고 (그리고 그렇게 할 것이라고 생각한다면), 이것이 가장 좋은 대답처럼 들립니다.
Suresh Venkatasubramanian

3

다음은 간단한 아이디어입니다. 의견에서 말했듯이 강도가있는 그리드가 있다면 왜 이변 량 분포의 밀도에 맞지 않습니까?

내 요점을 설명하는 샘플 그래프는 다음과 같습니다. 여기에 이미지 설명을 입력하십시오

각 그리드 포인트는 강도에 따라 색상이 정사각형으로 표시됩니다. 이변 량 정규 밀도 도표의 등고선 도표가 그래프에 겹쳐져 있습니다. 보시다시피 등고선은 강도가 감소하는 방향으로 확장됩니다. 중심은 이변 량 법선의 평균과 공분산 행렬에 따른 강도의 확산에 의해 제어됩니다.

평균 및 공분산 행렬의 추정치를 얻으려면 간단한 수치 최적화를 사용할 수 있습니다. 평균 및 공분산 행렬을 매개 변수로 사용하여 밀도 함수 값과 강도를 비교하십시오. 추정치를 얻기 위해 최소화하십시오.

이것은 물론 통계적으로 추정하는 것이 아니지만 적어도 더 진행하는 방법에 대한 아이디어를 줄 것입니다.

그래프를 재현하는 코드는 다음과 같습니다.

require(mvtnorm)
sigma=cbind(c(0.1,0.7*0.1),c(0.7*0.1,0.1))

x<-seq(0,1,by=0.01)
y<-seq(0,1,by=0.01)
z<-outer(x,y,function(x,y)dmvnorm(cbind(x,y),mean=mean,sigma=sigma))

mz<-melt(z)

mz$X1<-(mz$X1-1)/100
mz$X2<-(mz$X2-1)/100

colnames(mz)<-c("x","y","z")

mz$intensity<-round(mz$z*1000)

ggplot(mz, aes(x,y)) + geom_tile(aes(fill = intensity), colour = "white") + scale_fill_gradient(low = "white",     high = "steelblue")+geom_contour(aes(z=z),colour="black")

2

모형이 2 차원 랜덤 필드 이고 정수 값 랜덤 변수 의 결합 분포를 추정하려고합니다 . 공간적 불안정성을 가정 할 수 있습니다. 즉, 의 공동 분포는 의 공동 분포와 . 특히, 한계 분포는 모든 셀에 대해 동일합니다. 간단한 질문은 해당 분야의 자기 상관 구조입니다. 즉, 거리 은 무엇입니까? 이것을 함수 로 나타냅니다X[i,j]X[i,j](X[i1,j1],...,X[im,jm])(X[i1+k,j1+l]...,X[im+k,jm+l])d ( [ i 1 , j 1 ] , [ i 2 , j 2 ] ) ρ ( dcorr(X[i1,j1],X[i2,j2])d([i1,j1],[i2,j2])ρ(d). 자기 상관 구조의 간단한 모델은 . 여기서 는 상수입니다.ρ(d)=kd1k

'가우시안 (Gaussian)'효과는 2 차 거리 함수에 해당하지만, 택시 노름 와 같이 고려해야 할 다른 거리 함수가 많이 있습니다.. 거리 함수와 자기 상관 모델의 형태를 결정하고 나면 최대 가능성을 통해 를 추정하는 것은 간단 합니다. 더 많은 아이디어를 얻으려면 "랜덤 필드"를 찾으십시오.ρ ( )d([i1,j1],[i2,j2])=|i1i2|+|j1j2|ρ(d)


1
"공간적 불안정성을 가정하고 싶다"는 OP의 가정이 "강도가 모든 방향으로 방사상으로 가늘어진다"는 가정과 모순되는 것으로 보인다.
whuber

어떻게 요? 이러한 패턴은 내가 제안한 자기 상관 구조에서 발생합니다.
charles.y.zheng

1
@charles 중요한 포인트입니다. 만약이 명백한 경향이 자기 상관에 기인한다면, 원칙적으로 프로세스의 다른 독립적 인 실현은 중심점에서 멀어 질수록 값이 증가하는 것과 같이 극적으로 다른 경향을 보일 수 있습니다. OP는 추세 ( "방사선 테이퍼링")와 상관 요소 ( "여러 그리드 셀에 영향을 미침")에 대한 결정 론적 요소를 명확하게 표현하고 구분했기 때문에이를 존중하는 대답은 주장하는 것보다 더 긍정적으로 보일 수 있습니다. OP는 그의 마음을 바꾸고 싶어한다.
whuber

공간적 불안정성 상태를 이해하지 못했습니다. 표면적으로는 특정 위치에 "테이퍼를 사용하여 튀어 나오는 피크"가 있다는 생각과 상충되는 것 같지만, 분명히 이해하고 있지 않습니다.
Suresh Venkatasubramanian

1
@charles, 설명하는 패턴은 공간적 고 정성 가정으로 인해 그리드 점에 대해 나타납니다 . 문구는 기본적으로 모든 요점이 비슷하게 작동한다고 말합니다. OP에 의해 설명 된 경우는 아닙니다. 대답은 여전히 ​​좋지만이 경우에는 적합하지 않습니다.
mpiktas 11
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.