회귀 모델 및 공간 자기 상관


15

두 개의 서로 다른 데이터베이스 간의 종속성을 확인하기 위해 OLS와 GWR을 사용했습니다. GWR의 잔차 제곱은 0.82이므로 두 데이터 세트 간의 관계를 결정하는 데 사용되는 올바른 회귀 모델이됩니다.

내가 알고 싶었던 것, GWR은 로컬 회귀이고 OLS는 전역 회귀이며 어디에서 언제 사용해야합니까?

또한 GWR 모델에 대한 Moran의 I이 랜덤 인 경우 실제로 무엇을 의미합니까?

답변:


13

이 절차는 무엇입니까

OLSGWR 은 통계적 구성의 여러 측면을 공유 하지만 다른 목적으로 사용됩니다.

  • OLS는 공식적으로 특정 종류 글로벌 관계모델링합니다 . 가장 간단한 형식으로, 데이터 세트의 각 레코드 (또는 사례) 는 실험자가 설정 한 값 x (종종 "독립 변수"라고 함)와 관찰 되는 다른 값 y ( "종속 변수")로 구성됩니다. ). OLS는 y가 대략x와 관련하여 특히 간단한 방법으로 : 즉, (알 수없는) 숫자 'a'와 'b'가 존재하는데, 실험자가 관심을 가질 수있는 x의 모든 값에 대해 a + b * x가 y의 좋은 추정치가 될 수 있습니다. . "양호한 추정"은 y의 값이 (1) 실제로는-자연은 수학 방정식만큼 단순하지 않으며, (2) y는 일부로 측정되기 때문에 그러한 수학적 예측과 다를 수 있으며, 오류. a와 b의 값을 추정하는 것 외에도 OLS는 y의 변동량을 정량화합니다. 이를 통해 OLS는 매개 변수 a와 b 의 통계적 유의성 을 확립 할 수 있습니다.

다음은 OLS 적합성입니다.

여기에 이미지 설명을 입력하십시오

  • GWR은 지역 관계 를 탐색 하는 데 사용됩니다 . 이 설정에는 여전히 (x, y) 쌍이 있지만 현재 (1) 일반적으로 x와 y가 모두 관찰되며 실험자가 미리 결정할 수 없으며 (2) 각 레코드는 공간 위치 z를 갖습니다. . 모든 위치, z (데이터를 사용할 수 있는 위치 일 필요는 없음)에 대해 GWR 은 인접 데이터 값에 OLS 알고리즘 을 적용하여 y = a (z) + b (z) 형식으로 y와 x 간의 위치 별 관계 를 추정합니다. *엑스. "(z)"표기법은 계수 a 및 b 가 위치에 따라 다르다는 것을 강조한다 . 따라서 GWR은 로컬 가중치 스무더 의 특수 버전입니다공간 좌표 만 사용하여 주변을 결정합니다. 출력은 x와 y의 값이 공간 영역에서 어떻게 공존 하는지를 제안 하는 데 사용됩니다 . 방정식에서 독립 변수 및 종속 변수의 역할을 수행해야 할 'x'와 'y'를 선택할 이유가없는 경우가 종종 있지만, 이러한 역할을 전환 하면 결과가 변경됩니다 ! 이것이 GWR이 공식적인 방법이 아닌 데이터를 이해하기위한 시각적이고 개념적 도움이되는 탐색적인 것으로 간주되어야하는 많은 이유 중 하나입니다.

여기에 로컬 가중치가 적용됩니다. 데이터의 명백한 "흔들림"을 어떻게 따라갈 수 있는지, 모든 지점을 정확히 통과하지는 않습니다. (절차에서 설정을 변경하여 GWR이 공간 데이터를 더 정확하게 또는 덜 따르도록 만들 수있는 것처럼, 절차에서 설정을 변경하여 점을 통과하거나 작은 흔들림을 따르도록 만들 수 있습니다.)

로우 세스

직관적으로, OLS는 (x, y) 쌍의 산점도와 GWR의 산점도에 딱딱한 모양 (예 : 선)을 맞추는 것으로 생각하면 그 모양이 임의로 흔들릴 수 있습니다.

그들 사이에서 선택

현재의 경우, "두 개의 별개의 데이터베이스"가 무엇을 의미하는지는 확실하지 않지만 OLS 또는 GWR을 사용하여 이들 간의 관계를 "확인"하는 것은 부적절 할 수 있습니다. 데이터베이스가 위치들의 동일한 세트에 동일한 양의 독립적 인 관측을 나타내면 때문에 예를 들어, (1) OLS 아마 부적절한 × (하나의 데이터베이스의 값)와 Y (다른 데이터베이스의 값)이 있어야 (고정되고 정확하게 표현 된 것으로 생각하는 대신에) 변화하는 것으로 생각되고 (2) GWR은 x와 y 사이의 관계 를 탐색 하기에 적합하지만, 검증 하는데 사용될 수는 없다무엇이든 상관없이 관계를 찾을 수 있습니다. 또한, 앞서 "두 데이터베이스"의 대칭 역할 것을 나타내는, 주목 하나가 다를 보장 GWR 두 가지 결과를 초래 'X'및 'Y'와 다른으로서 선택 될 수있다.

다음은 x와 y의 역할을 반대로하여 동일한 데이터로 로컬 가중치를 매끄럽게 한 것입니다. 이것을 이전 플롯과 비교하십시오. 전체 맞춤이 얼마나 가파르고 세부 사항이 얼마나 다른지 확인하십시오.

로우 세스 2

두 데이터베이스가 동일한 정보를 제공하거나 상대 바이어스 또는 상대 정밀도를 평가하려면 다른 기술이 필요합니다. 기술의 선택은 데이터의 통계적 속성과 검증의 목적에 달려 있습니다. 예를 들어, 화학 측정 데이터베이스는 일반적으로 교정 기술을 사용하여 비교됩니다 .

모란의 해석 I

"GWR 모델에 대한 Moran의 I"이 무엇을 의미하는지 말하기는 어렵습니다. 모란의 I 통계량은 GWR 계산의 잔차에 대해 계산되었을 수 있습니다. (잔차는 실제 값과 적합치의 차이입니다.) Moran 's I 는 공간 상관의 전체 측정 값입니다. 작은 경우, y- 값과 x- 값의 GWR 피팅 간의 변동이 공간적 상관 관계가 거의 없거나 전혀 없음을 나타냅니다. GWR이 데이터에 "조정"될 때 (이것은 실제로 어떤 점의 "이웃"을 구성하는지 결정하는 것을 포함 함), GWR은 (내재적으로) x와 y 사이의 공간 상관을 이용하기 때문에 잔차에서 낮은 공간 상관이 예상됩니다. 알고리즘의 값.


따라서 GWR에서 변수를 반전하면 결과가 다르지만 더 높은 잔차 제곱을 나타내는 것은 두 변수 사이에 더 강한 관계를 나타내는 것은 아닙니다.
Sam007

잔차 제곱 자체 가 낮은 Sam 은 더 강한 관계를 나타내지 않습니다. 특히, x와 y의 역할을 바꾸면 잔차 제곱을 비교할 수 없으며 종종 다른 단위로 나타납니다. (예, 하나는 정사각형 온도 될 수 있으며 다른 하나는 강수량의 정사각형 양 수 있습니다 : 하나는 낮은 인에게 어떻게) 당신은 할 수 항상 그들이 의미가 경우에도 모델에서 더 많은 매개 변수를 포함하여 잔류 광장을 감소 :이 방향으로 너무 멀리가는 것을 "과적 합"이라고합니다. 어떤 의미에서, 짧은 공간 범위를 가진 GWR은 과적 합의 한 형태입니다.
whuber

2
당신은 R- 제곱을 생각할 것입니다, 샘 : 그것은 비율입니다. (잔여 제곱의 합인 "잔차 제곱"을 정확히 이해했습니다. 대부분의 통계 소프트웨어는 R- 제곱 값과 함께이 통계를보고합니다.) 그러나 다른 모델을 비교하는 것은 여전히 ​​위험하고 일반적으로 잘못된 것입니다 (예 : R- 제곱 측면에서 x 대 x 측면에서 y)와 y) 측면에서 : stats.stackexchange.com/questions/13314를 참조하십시오 . GWR은 탐구 적이므로 패턴 을 찾고 관계를 가정하는 데는 좋지만 (보통 어쨌든 연습과 같이) 주장 을 입증하는 데 적합하지 않습니다 .
whuber

1
와우 그것은 실제로 모든 통계였습니다. 실제로 내가 어렵게 생각하는 이유는 통계에 대한 배경 지식이 매우 부족한 becoz이기 때문에 정확히 의미하는 바를 이해하지 않고 모델 결과에만 의존합니다. R2에있는 물건의 대부분은 내 머리 위로 갔다. 통계를 바탕으로 저의 기초를 세우고 시작하기 위해 초보자에게 좋은 책을 제안 해 주시겠습니까?
Sam007


3

Rsquared를 사용하여 모델을 비교해서는 안됩니다. 로그 likihood 또는 AIC 값을 사용하십시오.

GWR의 잔차가 무작위이거나 지정된 모델을 가질 수있는 것보다 임의의 것으로 보입니다 (통계 학적으로 시그마 없음). 최소한 상관 잔차가 없음을 나타내며 생략 된 변수가 없음을 제안해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.