시공간 예측 오차의 탐색 적 분석


13

데이터 : 저는 최근 풍력 생산 예측 오류의 시공간 분야의 확률 적 특성을 분석하기 위해 노력했습니다. 공식적으로 이것은 은 시간에 두 번 ( 및 ), 한 번에 공간 ( )에 색인을 생성 하고 는 미리보기 횟수입니다 (주변과 동일) , 정기적으로 샘플링 됨), 는 "예측 시간"의 수 (즉, 예측이 발행 된 시간, 내 경우에는 약 30000, 정기적으로 샘플링 됨), 및 thpH24Tn

(ϵt+h|tp)t=1,T;h=1,,H,p=p1,,pn
thpH24Tn많은 공간 위치 (내 경우에는 약 300 개가 그리드에 표시되지 않음)입니다. 이것은 날씨 관련 프로세스이므로 사용할 수있는 일기 예보, 분석, 기상 측정도 많이 있습니다.

질문 : 프로세스의 세부 모델링을 제안하기 위해 프로세스의 상호 의존성 구조 (선형이 아닐 수도 있음)의 특성을 이해하기 위해이 유형의 데이터에 대해 수행 할 탐색 분석을 설명해 주시겠습니까?


이것은 매우 흥미로운 질문입니다. 최소한 익명화 된 데이터의 하위 집합으로 재생할 수 있습니까? 그리고 예측은 어떻게 만들어졌으며 어떤 모델이 사용 되었습니까?
mpiktas

1
@mpiktas 덕분에 적절한 AR 모델링 (각 풍력 발전 단지마다 하나씩)으로 생성되었다고 생각할 수 있습니다. 문제는 크게 변하지 않습니다. 죄송합니다 ...이 이러한 데이터를 너무 많이 confidenciality 문제는, 당신은 아무것도, 심지어 익명을 제공 할 수 없습니다
로빈 지라

답변:


6

예측 오차의 편향 (즉, 체계적으로 과대 / 과소 평가되는 [첫 순간] 경향)과 그들의 편차 [두 번째 순간]의 시공간 및 기상 영향에 대한 의존성을 모델링하기에 충분한 데이터가있는 것 같습니다.

편견을 탐구하기 위해 많은 산점도, 히트 맵 또는 헥스 빈 플롯을 수행합니다. 가변성을 탐색하기 위해 원래 오류를 제곱 한 다음 다시 많은 산점도, 히트 맵 또는 16 진수 플롯을 수행합니다. 편견이 많으면 물론 이것이 문제가되지는 않지만 공변량에 영향을받는이 분산 패턴을 보는 데 여전히 도움이 될 수 있습니다.

내 동료도 좋은의이 모델의 이러한 종류의 (필요한 경우 또한, 높은 순간의 모델링을 가능) 피팅을위한 매우 유연한 방법을 자세히 설명 멋진의 techreport했다 R-implementation의 gamboostLSS을 기반으로 mboost: 마이어를, 안드레아스; 펜 스케, 노라; 호프 너, 벤자민; Kneib, Thomas and Schmid, Matthias (2010) : 고차원 데이터를위한 GAMLSS – 부스팅 기반의 유연한 접근 방식. . 많은 RAM이있는 머신에 액세스 할 수 있다고 가정하면 (데이터 세트가 BIG 인 것 같음) 모든 종류의 반 파라 메트릭 효과 (공간 효과를위한 매끄러운 표면 추정기 또는 와 의 결합 효과)를 추정 할 수 있습니다.시간th, 템포 공간 효과 또는 기상 효과 등의 부드러운 상호 작용을위한 텐서 제품 스플라인 등)을 다른 순간에 적용하고 동시에 용어 선택을 수행하여 포용적이고 해석 가능한 모델을 얻습니다. 이 모델의 항이 예측 오차의 시공간 자기 상관 구조를 설명하기에 충분하기를 희망하지만, 자기 상관에 대해 이러한 모델의 잔차를 확인해야합니다 (예 : 일부 variograms 및 ACF).


+1 감사합니다 Fabians, 당신은 완전히 옳습니다. 문제는 데이터가 충분하지 않다는 것입니다. 내 질문은 특히 상호 의존 구조에 관한 것입니다. 산점도, 히트 맵 및 헥스 빈 플롯은 좋은 목적으로 사용되는 경우 좋은 도구입니다. 나는 일반적인 첨가제 모델이 매우 강력 할 수 있다고 생각합니다 .Brillinger의 훌륭한 논문이 GAM 사용법에 대한 좋은 힌트를 제공합니다.
로빈 지라드

5

우리 (동료와 나는)가 마침내 그 논문을 썼습니다. 요약 한 내용을 요약하기 위해 덴마크를 따라 오류를 (시공간적) 전파하는 것을 정량화하고 통계적으로 요약하는 두 가지 솔루션을 제안했습니다.

  • 첫 번째 항목에서는 모든 풍력 단지 쌍과 모든 미리보기 쌍에 대한 상관 관계를 계산합니다 (4 가지 변수의 함수 임). 한 쌍이 고정되면 상관 관계 함수가 사전에 로컬 최대 값을 가지고 있음을 보여주었습니다. 주어진 한 쌍의 풍력 발전 단지와 관련된 시간 척도는이 지역 최대치에 도달하기위한 시간 지연에 의해 주어진다. 모든 풍력 단지에 대해 상관 관계의 극대 최대치를 플로팅하면이를 획득 할 수있는 시간 지연과 풍력 단지를 연결하는 공간 벡터가 그림 1의 오른쪽을 제공합니다.

그림 1

이것은 전역 전파 벡터, 즉 쌍들 사이의 전파 속도의 일종의 공간 평균을 계산하는데 사용될 수있다. 이것의 일부는 그림 1의 왼쪽에 표시되어 있으며 Denamrk에서 West East가 어떤 오류의 전파를했는지 추측 해보십시오. 또한 전파와 바람 (속도, 방향)의 관계를 보여주기 위해이 조건을 다른 기상 상황에 대해 조건부로 분석했습니다.

  • ttR2

그림 2

두 번째 경우, 시간적 평균 전파 속도가 첫 번째 경우의 공간 평균으로 얻은 것과 비슷한 구질을 갖는 것으로 관찰되었다. 이 작업을보다 진지하게보고 싶다면 논문이 여기 있습니다 .


+1 공유해 주셔서 감사합니다. (죄송합니다. 질문이 처음 나타 났을 때 놓쳤습니다.) 미리보기를 사용하여 교차 변수를 플로팅하는 것을 고려 했습니까? 가장 효과적인 것은 전통적인 평활 방향성 바리오 그램 구름이 아닙니다. 대신, Variogram Cloud 밀도의 2 차원 플롯을 사용하십시오. 그런 다음 , 시간 관계를 탐색하기 위해 이들의 변수를 교차 분석 할 수 있습니다 . 전파 결과는 이러한 분석에서 자동으로 튀어 나와야합니다.
whuber

@ whuber 의견을 주셔서 감사합니다, 나는 당신 이이 사이트에서 2 ~ 3 개 이상의 질문을 놓쳤다 고 생각하지 않습니다 :). Variogramm에 대한 당신의 생각은 연결되어있는 것처럼 보입니다 (Variogram을 사용하는 데별로 사용하지는 않습니다. Variogram으로 공식화 할 수있는 모든 것이 공분산과 실질적으로 동등하다고 생각합니다 ...), 나는 그것에 대해 생각할 것입니다.
로빈 지라드

많은 응용 프로그램에서 공분산이 바리 그램과 동일하다는 것이 맞습니다. 그러나 variogram cloud는 공분산 함수로 순수하게 작업하는 것이 제공하지 않는 시각적 및 개념적 보충을 제공합니다. 상관 행렬 대신 산점도를 보는 것과 약간 비슷합니다. 때로는 숫자가 명확하게 드러나지 않는 패턴을 수 있습니다 .
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.