GAM에 위도와 경도를 포함시키는 것이 공간 자기 상관을 설명하는 이유는 무엇입니까?


60

삼림 벌채를위한 일반화 된 첨가제 모델을 제작했습니다. 공간적 자기 상관을 설명하기 위해 위도와 경도를 부드러운 상호 작용 항 (예 : s (x, y))으로 포함 시켰습니다.

나는 저자들이 '공간 자기 상관을 설명하기 위해 점들의 좌표가 평활 한 용어로 포함되었다'고 말하는 많은 논문을 읽은 것에 근거하고 있지만, 이것이 왜 이것이 실제로 그것을 설명하는지는 설명하지 않았다. 꽤 실망 스럽습니다. 답변을 찾기 위해 GAM에서 찾을 수있는 모든 책을 읽었지만 대부분의 (예 : 일반화 된 가산 모델, R, SN Wood 소개) 설명없이 주제를 다룰 수 있습니다.

위도 및 경도가 공간 자기 상관을 설명하는 이유와 설명하는 이유를 설명 할 수 있다면 정말 감사하겠습니다. 모델에 포함하기에 충분하거나 모델을 비교해야 하는가? s (x, y)와없는 모델? 그리고 용어로 설명 된 이탈은 공간 자기 상관의 정도를 나타내는가?


관련이 있다면 R의 'mgcv'패키지에서 'bam'함수를 사용했습니다.
gisol

또한 Moran 's I를 사용하여 공간 자기 상관을 테스트했습니다.
gisol


3
여기에 답변이 주어지면 다른 Q @Macro 링크를이 링크의 복제본으로 플래그 지정할 수 있으므로 해당 링크를 통해 오는 사람들은 여기에 답변, 특히 whuber의 답변을 볼 수 있습니다.
개빈 심슨

@GavinSimpson +1-그건 그렇고, 투표권을 행사할 수있는 권한이 있습니다.
매크로

답변:


38

모든 통계 모델의 주요 문제는 추론 절차의 기본이되는 가정입니다. 설명하는 모델에서 잔차는 독립적 인 것으로 가정합니다. 이들이 공간 의존성을 가지고 있고 이것이 모형의 음표 부분에서 모델링되지 않은 경우, 해당 모형의 잔차도 공간 의존성을 나타내거나, 다시 말해서 공간적으로 자기 상관됩니다. 이러한 의존은 예를 들어 GAM의 테스트 통계에서 p- 값을 생성하는 이론을 무효화합니다. p- 값은 독립성을 가정하여 계산되었으므로 신뢰할 수 없습니다.

이러한 데이터를 처리하기위한 두 가지 주요 옵션이 있습니다. i) 모델의 체계적인 부분에서 공간 의존성을 모델링하거나, ii) 독립 가정을 완화하고 잔차 간의 상관을 추정합니다.

i) 모델에서 공간적 공간을 부드럽게 포함하여 시도하고있는 것입니다. ii) 일반화 된 최소 제곱과 같은 절차를 사용하여 모델 피팅 동안 종종 잔차의 상관 행렬을 추정해야합니다. 이러한 접근 방법 중 어느 것이 공간 의존성을 얼마나 잘 다루는가는 공간 의존성의 본질 및 복잡성과 그것이 얼마나 쉽게 모델링 될 수 있는지에 달려 있습니다.

요약하면 관측치 간의 공간 의존성을 모형화 할 수있는 경우 잔차는 독립적 인 임의 변수 일 가능성이 높으므로 추론 절차의 가정을 위반하지 않습니다.


분명한 답변 Gavin 주셔서 감사합니다. 공간 자기 상관이 모델에 포함되지 않은 기울기와 근본적으로 다른 점은 무엇입니까? 연구 지역이 경 사진 언덕에 있고 관심있는 종들이 낮은 서식지보다 높은 서식지를 선호한다고 가정하십시오. 모형에 표고를 포함하지 않으면 잔차에 구조가 남지 않습니까? 공간 자기 상관이 잊혀지거나 고려되지 않았다는 것입니까? (PS는 아마도 위도를 포함하는 것이 좋지 않은 예일 수 있습니다.
gisol

4
예. 예제에서 당신이 관심있는 공간 구성 요소를 보았을 때 위도 / 경도의 평활을 통해 명시 적으로 모델링되었거나 공간 구성 요소가 성가신 용어 였지만 잔차 iid를 남기기 위해 모델링해야한다고 생각합니다. "구성 요소는 다른 변수 (예 : 주석의 표고)를 통해 더 잘 모델링 된 다음 공간 위치 대신 해당 변수의 매끄러운 것이 사용됩니다.
개빈 심슨

1
왜 부드럽게? "부드럽게"란 정확히 무엇을 의미합니까?
Julian

1
@ 줄리안 응답의 값은 2 개의 공간 좌표에 대해 평활화됩니다. 달리 말하면 공간 효과 는 부드러운 2 차원 함수로 추정됩니다. 부드럽게 우리는 스플라인의 제곱 제곱 파생 적분에 의해 측정 된 일부 흔들림을 의미합니다. 모형의 적합도와 복잡도의 균형을 맞추기 위해 흔들림이 선택됩니다. 부드러운 기능 (스플라인)이 어떻게 형성되는지 알고 싶다면 특정 질문을하는 것이 좋습니다.
개빈 심슨

55

"공간 자기 상관"은 다양한 사람들에게 다양한 것을 의미합니다. 그러나 가장 중요한 개념은 위치에서 관찰되는 현상이 (a) 공변량, (b) 위치 및 (c) 근처 위치 에서의 값에 따라 명확한 방식으로 의존 할 수 있다는 것 입니다. (기술적 정의가 다양 할 경우 고려되는 데이터의 종류, "정확한 방법"이 가정되는 것과 "가까운"의 의미에 따라 다릅니다 : 진행하기 위해서는이 모든 것이 정량적으로 이루어져야합니다.)z

무슨 일이 벌어지고 있는지 확인하기 위해 지역의 지형을 설명하는 공간 모델의 간단한 예를 생각해 봅시다. 점에서 측정 된 고도하자 될 . 한 가지 가능한 모델은 가 좌표에 명확한 수학적 방식으로 의존 한다는 이 2 차원 상황에서 를 쓸 것 입니다. 분들께 (가설 독립) 관찰 및 (평소와 같이 제로 기대를 가지고 가정) 모델 사이의 편차를 나타내고, 우리가 쓸 수 있습니다zy(z)yz(z1,z2)ε

y(z)=β0+β1z1+β2z2+ε(z)

A에 대한 선형 추세 모델 . (의해 표현되는 선형 추세 와 계수) 아이디어를 캡처하는 한 방법은 그 근처의 값 와 에 대한, 근접 하기 , 서로 근접하는 경향한다. 와 , 의 차이 크기의 예상 값을 고려하여이를 계산할 수도 있습니다. . 수학은 많은 것으로 밝혀졌습니다β1β2y(z)y(z)zzy(z)y(z)E[|y(z)y(z)|]약간 다른 차이 측정을 사용하는 경우 더 간단합니다. 대신 예상 제곱 차이를 계산합니다 .

E[(y(z)y(z))2]=E[(β0+β1z1+β2z2+ε(z)(β0+β1z1+β2z2+ε(z)))2]=E[(β1(z1z1)+β2(z2z2)+ε(z)ε(z))2]=E[(β1(z1z1)+β2(z2z2))2+2(β1(z1z1)+β2(z2z2))(ε(z)ε(z))+(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]

이 모델에는 를 근처의 값 직접 관련시키는 용어가 없기 때문에 명시 적 공간 자기 상관이 없습니다 .y(z)y(z)

대안의 다른 모델은 선형 추세를 무시하고 자기 상관 만 있다고 가정합니다. 이를위한 한 가지 방법은 편차 의 구조를 이용하는 것 입니다. 우리는 그것을 긍정적으로 할 수 있습니다ε(z)

y(z)=β0+ε(z)

와, 상관의 우리의 기대를 설명하기 위해, 우리는을위한 "공분산 구조"어떤 종류의 가정합니다 . 이를 공간적으로 의미있게하기 위해 과 의 공분산 을 에는 평균이 0 이므로 는 및 가 점점 멀어짐에 따라 감소하는 경향이 있습니다. 세부 사항은 중요하지 않으므로이 공분산 호출하십시오 . 이것은 공간 자기 상관입니다.εε(z)ε(z)E[ε(z)ε(z)]εzzC(z,z) 실제로 와 의 (일반적인 Pearson) 상관 관계 는y(z)y(z)

ρ(y(z),y(z))=C(z,z)C(z,z)C(z,z).

이 표기법 에서 첫 번째 모형에 대한 의 이전 예상 제곱 차이 는 다음과 같습니다.y

E[(y(z)y(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+C1(z,z)+C1(z,z)

( 가정) 서로 다른 위치 의 은 독립적 인 것으로 가정 되었기 때문 입니다. 이것이 대신 을 작성 하여 이것이 첫 번째 모형의 공분산 함수임을 나타냅니다.zzεC1C

의 공분산이 한 위치에서 다른 위치로 크게 변하지 않는 경우 (실제로 일정하다고 가정)이 방정식은 사이의 분리 로 의 예상 제곱 차가 2 차적으로 증가 함을 보여줍니다. 및 입니다. 실제 증가량은 추세 계수 및 의해 결정됩니다 .εyzzβ0β1

의 예상 제곱 차이 가 새 모델 인 모델 2에 대해 무엇인지 봅시다 :y

E[(y(z)y(z))2]=E[(β0+ε(z)(β0+ε(z)))2]=E[(ε(z)ε(z))2]=E[ε(z)22ε(z)ε(z)+ε(z)2]=C2(z,z)2C2(z,z)+C2(z,z).

다시 이것은 적절한 방식으로 동작 : 우리는 생각하기 때문에 한다 감소 로 와 가 더 분리 예상 제곱 차이 의 참으로가는 최대 위치의 분리가 증가.C2(z,z)zzy

위한 두 개의 식을 비교 두 모델에 있음을 도시 첫 번째 모델의 는 두 번째 모델의 와 수학적으로 동일한 역할을 수행 합니다. ( 의 다른 의미에 묻혀있는 추가 상수가 있지만이 분석에서는 중요하지 않습니다. Ergo , 모델에 따라 공간 상관 관계 일반적으로 임의의 오류에 대한 경향과 규정 된 상관 구조의 일부 조합으로 표시됩니다.( β 1 ( Z 1 - Z ' 1 ) + β (2) ( Z 2 - Z 2 ) ' ) 2 - 2 C 2 ( Z , Z ' ) C i ( z , z )E[(y(z)y(z))2](β1(z1z1)+β2(z2z2))22C2(z,z)Ci(z,z)

우리는 이제이 질문에 대한 명확한 답변을 얻었습니다. Tobler의 지리학 법칙 ( "모든 것은 다른 모든 것과 관련되어 있지만 가까운 것은 더 관련이 있습니다") 의 아이디어를 다른 방식으로 나타낼 수 있습니다 . 일부 모델에서, Tobler의 법칙은 경도 및 위도와 같은 공간 좌표의 함수 인 경향 (또는 "드리프트"항)을 포함하여 적절히 표현됩니다. 다른 한편으로, Tobler의 법칙은 부가적인 임의의 항 ( 중에서 사소한 공분산 구조를 통해 포착됩니다.ε). 실제로 모델에는 두 가지 방법이 통합되어 있습니다. 어떤 것을 선택 하는가는 모델로 달성하고자하는 대상과 공간적 자기 상관이 어떻게 발생하는지에 대한 관점에 따라 달라집니다 (기본 경향이 암시하는지 또는 무작위로 고려하고자하는 변동을 반영하는지 여부). 어느 쪽도 항상 옳은 것은 아니며 주어진 문제에서 종류의 모델을 사용하여 데이터를 분석하고 현상을 이해하며 다른 위치에서 값을 예측하는 것이 가능합니다 (보간).


2
+1-공간 의존성을 처리하기위한 두 가지 접근 방식 사이의 링크를 보는 것이 좋습니다. 좋은 답변입니다.
매크로

매우 포괄적입니다. 감사합니다. 이 모든 것을 생각하는 데 약간의 시간이 걸립니다.
gisol

6
모든 통계적 글쓰기가이 정도면 세계에 훨씬 더 명확하게 적용되는 통계 작업이있을 것입니다. 아름답게 완성되었습니다.
Ari B. Friedman

X / Y 좌표를 독립 변수로 단순히 (?!) 모델에 추가하면 공간 자기 상관이 어느 정도 설명된다는 점 에서이 대답을 올바르게 이해합니까?
Julian

1
@ 줄리안 : 우리는 같은 데이터에 대해 다른 모델을 만드는 것에 대해 이야기하고 있습니다. X와 Y 좌표를 설명 변수로 포함하지만 공간 상관을 설명하지 않는 경우 "공간 상관"은이 모델에 의미가 없으므로 "공간 상관에 대한 설명"의 의미에주의해야합니다. 그러나 좌표를 설명 변수로 포함시키는 것이 공간 상관이 명시 적으로 표현되는 모델을 구성하는 것만 큼 효과적 일 수 있는지 묻는 귀하의 질문을 이해하면 내 대답은 "그렇습니다. 종종 그렇습니다"입니다.
whuber

0

다른 대답은 좋았습니다. 공간 자기 상관을 '계산'하는 것에 대해 뭔가를 추가하고 싶었습니다. 때때로이 주장은 "공변량에 의해 설명되지 않은 공간적 자기 상관을 설명하는"선을 따라 더욱 강력해진다.

이것은 공간 평활이하는 일에 대한 오해의 소지가있는 그림을 제시 할 수 있습니다. 평활 환자가 공변량이 먼저 나올 때까지 기다렸다가 '설명되지 않은'부분을 청소할 가능성이있는 순서대로 대기열이있는 것과는 다릅니다. 실제로 그들은 모두 데이터를 설명 할 기회를 얻습니다.

CAR 모델의 관점에서 원칙이 GAM 스무스에 적용되지만 적절하게 명명 된 제목을 가진이 논문은 실제로 문제를 명확하게 제시합니다.

공간적으로 관련된 오류를 추가하면 원하는 고정 효과를 엉망으로 만들 수 있습니다

종이의 '솔루션'은 공간을 부드럽게하는 대신 잔차를 부드럽게하는 것입니다. 그것은 공변량이 그들이 할 수있는 것을 설명 할 수있게하는 효과가 있습니다. 물론 이것이 바람직한 솔루션이 아닌 많은 응용 프로그램이 있습니다.


-2

공간 상관은 단순히 x와 y 좌표가 공간에서 결과 표면의 크기와 어떻게 관련되는지입니다. 따라서 좌표 간의 자기 상관은 인접 지점 간의 기능적 관계로 표현 될 수 있습니다.


1
안녕 마이클, 답변 주셔서 감사합니다. 나는 당신이 말한 것을 이해한다고 생각하지만, 좌표 포함이 어떻게 그것을 설명하는 것이 아니라 공간 자기 상관에 대한 설명 인 것 같습니다. 그러나 나는 당신의 요점이 빠져있을 수 있습니다. 예를 들어, 두 개의 모델이 있는데, 첫 번째는 (A) 단일 용어-삼림 벌채는 수도와의 거리의 함수로, 두 번째는 (B) 수도와는 거리가 있고 위도 및 긴 기간. 이 맥락에서 답을 되풀이 하시겠습니까? 아마 나는 그것을 더 잘 이해할 수 있었다.
gisol

1
모형에 교호 작용 항이없는 경우 인접 점 사이의 공간 자기 상관은 0이라고 생각합니다. 반복 항이 있으면 해당 항이 공간 자기 상관의 값을 결정합니다.
Michael Chernick

4
@Michael, 공간 자기 상관은 점 사이의 상관이 공간 위치에 따라 달라짐을 의미합니다. 공간 위치를 입력으로 사용하여 부드러운 함수 추정을 사용하는 이유를 설명 할 수 있다면이 대답이 더 유용 할 것이라고 생각합니다. 표면적으로, 평활 함수 접근법은 평균 을 모델링하는 반면 공간 자기 상관은 공분산 구조를 나타냅니다 . 매끄러운 프로세스의 공분산 함수와 매끄러운 함수 추정 사이에는 관계가 있다는 것을 알고 있지만, 연결하지 않으면이 답변이 불완전한 것으로 보입니다.
Macro

1
@Michael, 위도 / 경도 좌표가 평균에 영향을 미치는 것은 공간에서 두 점 사이의 상관 관계를 모델링하는 것과 다르다는 것을 알 수 있습니다 ... OP는 공간 자기 상관 을 모델링하는 방법을 물었고 인수의 일부- 부드러운 공간 표면 (좌표의 일반화 된 가산 모델이하는 것)을 피팅하는 것이 공간 자기 상관을 모델링하는 방법을 정확하게 설명합니다. 게임과 공분산 함수 사이에는 관계가 있지만 (정확히 알만큼 충분하지는 않습니다) 그 관계에 호소하는 것이 여기에 필요한 것 같습니다.
매크로

1
@Marco Simon Wood의 책을 살펴보면 자세한 내용을 알 수 있고 부드러운 효과에 관한 관련 문헌을 임의 효과 비트로 인용 할 수 있습니다.
Gavin Simpson
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.