여러 시계열을 결합 할 때 어떤 문제를주의해야합니까?


10

예를 들어 지역의 여러 관측소의 여러 온도 기록과 같은 시계열이 있다고 가정 해보십시오. 지역 기후의 측면을 설명 할 수있는 전체 지역에 대한 단일 온도 기록을 얻고 싶습니다. 직관적 인 접근 방식은 각 단계마다 모든 스테이션의 평균을 단순히 얻는 것이지만 통계적 스파이더 감지 (아직 잘 연락하지 않은)는 이것이 쉽지 않을 수 있다고 말합니다. 특히, 전체 지역의 평균을 계산하면 흥미로운 온도 극단이 사라지고 가까운 역 사이의 의존성에 문제가있을 수 있다고 생각합니다.

이와 같은 전략을 시도 할 때 어떤 다른 문제가 발생할 수 있으며,이를 극복 할 수있는 방법 또는 이러한 종류의 데이터를 결합하는 더 합리적인 방법이 있습니까?

참고 : 답변은 내가 제공 한 공간 예보다 더 일반적 일 수 있습니다.


1
문제는 "전체 지역에 대한 단일 온도 기록"과 지역 내 변동에 대한 관심 사이의 충돌에있을 수 있습니다. 솔루션은 분산을 영역 간 및 영역 간 구성 요소로 분할하는 것과 같이이 두 가지 문제를 조정하는 방법이 필요할 수 있습니다.
피터 엘리스

@ PeterEllis, 예, 나는 그것을 모호하게 생각하고있었습니다. 질문의 목적을 위해, 내가 지역 내 공간적 변동에 관심이 없다고 가정하자.
naught101

이 경우에, 당신이 걱정해야 할 가장 중요한 것은 가까운 스테이션 사이의 의존성입니다. 옆집에 스테이션을 효과적으로 복제하는 관측 값을 내리는 방법을 찾으십시오. 그러면 괜찮을 것입니다.
피터 엘리스

@PeterEllis : 알겠습니다. 그러나 그렇게하는 합리적인 물리적 방법이 없을 수도 있습니다.-방송국의 근접성이 반드시 더 의존적이라는 의미는 아닙니다. 산맥의 반대편에있는 두 개의 가까운 역은 넓은 평원에있는 두 개의 먼 역보다 덜 유사 할 수 있습니다. 의존성을 통계적으로 정의하는 신뢰할 수있는 방법이 있습니까? 공분산, 아마도 ... 결과 시리즈에서 여전히 피크가 적을 것 같습니다 (물리적 상황을 반영한다고 생각합니다-넓은 지역의 온도 변화는 단일 장소보다 느리고 안정적 ​​일 수 있습니다).
naught101

@naught, 질문의 공간적 측면과 관련하여 지역이 어떻게 정의되어 있습니까? 귀하의 의견에 따르면, 산의 반대편에있는 두 개의 가까운 역은 넓은 평원에있는 두 개의 먼 역과 다를 수 있습니다. 분석에 대한 근접성과 유사성을 기반으로 스테이션 영역을 재정의하는 것을 고려 했습니까? 기존의 지역 경계와 반드시 일치 할 필요는 없습니다. 대신 전통적인지도 위에 그려 질 수있는 분석 오버레이가 될 수 있습니다.
dav

답변:


1

먼저, 나는 의견을 추가하고 싶다고 말하고 싶지만 아직 그렇게 할 수는 없지만 (답변) 질문을 좋아하고 참여하고 싶었습니다. 여기에 "답변"이 있습니다. 또한, 나는 이것이 오래된 것을 알지만 재미 있습니다.

첫째, PCA와 같은 차원 축소 기술을 사용하여 시계열을 압축 할 수 있습니까? 첫 번째 고유 값이 크면 고유 벡터를 사용하면 대부분의 역학을 나타낼 수 있습니다.

둘째, 더 일반적으로, 시계열의 원하는 사용법은 무엇입니까? 다른 많은 것을 알지 못하면 온도가 약간 다를 수 있다고 생각합니다. 예를 들어, 일부 온도 기록이 도시 ​​근처에 있으면 "열섬"유형 효과를 얻을 수 있습니다. 또는 측면 거리의 약간의 변화는 수직 거리의 큰 변화를 가져옵니다. 한 위치는 해수면과 바다에 있고 다른 위치는 "너무 멀지 않은"높이 일 수 있습니다. 그것들은 확실히 다른 온도를 가질 것입니다!

이것들은 단지 몇 가지 생각입니다. 다른 사람이 뛰어 들어 더 나은 답변을 줄 수도 있습니다.


1
좋은 지적. 솔직히 말해서, 나는이 질문과 관련된 맥락이 무엇인지 기억할 수 없으며, 나의 의견이 오도되었다는 느낌이 든다. 특히 모든 스테이션에 공통적 인 가변성을 잃지 않고 단계를 벗어난 것에 관심이있었습니다. 대륙 전체의 역들과 차가운 전선이 지나가는 것을 생각하십시오. 단순한 공간 평균은 기본적으로 콜드 프론트를 제거 할 수 있습니다. 각 스테이션은 강력하게 표시되지만 시간이 다르기 때문에 실제로 좋은 것은 아닙니다. 아마도 각 스테이션에서 어떤 종류의 PCA를 실행 한 다음 결과를 평균화하면 어떻게 든 해결할 수 있습니다.
naught101

오, 알았어. 지역에 걸쳐 시계열의 추세를 특성화하려는 경우 시계열을 정지 상태로 만들어야하고 각각 평균을 0으로 설정해야합니다. 일일주기를 제거 할 수도 있습니다. 각각 (또는 매일 평균을 취하십시오). 그런 다음 각기 평균 0을 중심으로 온도의 낮은 주파수 변화를 겪게됩니다. 일단 그런 다음 PCA와 같은 일부 차원 축소 기술을 사용하여 중심 + 고정 시계열을 응축 할 수 있습니다. 나는 당신이 질문의 맥락에 대해 이야기하는 것을 기쁘게 생각합니다. 좋은 물건!
rbatt
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.