짧은 시계열이 모델링 가치가 있습니까?


14

여기 몇 가지 맥락이 있습니다. 두 가지 환경 변수 (온도, 영양소 수준)가 11 년 동안 반응 변수의 평균 값에 어떤 영향을 미치는지 결정하고 싶습니다. 매년 1 억 개가 넘는 위치의 데이터가 있습니다.

목표는 11 년 동안 반응 변수의 평균값이 환경 변수의 변화에 ​​반응했는지 여부를 결정하는 것입니다 (예 : 더 따뜻한 온도 + 더 많은 영양소는 = 더 큰 반응).

불행하게도, 반응은 평균값이므로 (평균을 보지 않고 정기적 인 연간 변동만으로도 신호가 늪이 될 수 있습니다), 회귀는 2 개의 설명 변수가있는 11 개의 데이터 포인트 (연간 1 개의 평균값)가됩니다. 나에게 선형 양의 회귀 분석조차도 데이터 세트가 너무 작기 때문에 의미있는 것으로 간주하기가 어려울 것입니다 (관계가 매우 강하지 않으면 공칭 40 점 / 변수조차도 충족하지 못함).

이 가정을 할 권리가 있습니까? 아무도 내가 놓칠 수있는 다른 생각 / 관점을 제공 할 수 있습니까?

추신 : 몇 가지주의 사항 : 몇 년을 더 기다리지 않고 더 많은 데이터를 얻을 수있는 방법이 없습니다. 따라서 사용 가능한 데이터는 우리가 실제로 작업해야하는 것입니다.


데이터를 플로팅하려고 했습니까? 환경 변수와 응답 변수 사이의 상관 관계 강도가 답에 영향을 줄 것이라고 말합니다.
rm999

" 매년 1 억 개가 넘는 위치의 데이터가 있습니다. "실제로 모든 위치 또는 그에 기초한 평균 값만 관찰합니까? 그렇다면 @crayola가 선형 컨텍스트에서 제안한 것처럼 패널 데이터 모델을 사용할 수 있습니다. @GaBorgulya가 언급 한 일부 특수 생태 학적 모델은 추정값보다는 교정하기 위해 매개 변수에 대한 정보가 훨씬 적을 수 있습니다.
Dmitrij Celov

답변:


8

적은 수의 데이터 포인트는 데이터에 적합한 모델 유형을 제한합니다. 그러나 반드시 모델링을 시작하는 것이 의미가 없다는 것을 의미하지는 않습니다. 데이터가 거의 없으면 효과가 강하고 산란이 약한 경우에만 연결을 감지 할 수 있습니다.

데이터에 적합한 모델 유형은 또 다른 질문입니다. 제목에 '회귀'라는 단어를 사용했습니다. 모델은 현상에 대해 알고있는 것을 어느 정도 반영해야합니다. 이것은 생태 환경 인 것처럼 보이므로 전년도에도 영향을 줄 수 있습니다.


4

11 점 미만의 생태 데이터 세트를 보았으므로 매우 조심하면 제한된 데이터로 일부 결론을 내릴 수 있습니다.

실험 설계의 매개 변수를 고려할 때 검정력 분석을 통해 감지 할 수있는 효과의 크기를 결정할 수 있습니다.

신중한 분석을 수행하면 연간 추가 변동을 버릴 필요가 없습니다.



4

데이터를 기본적으로 (특히 시계열의 경우) 모델링하면 관심있는 현상을 포착하기에 충분한 빈도로 데이터를 수집했다고 가정합니다. 가장 간단한 예는 사인파에 대한 것입니다. n * pi의 주파수에서 데이터를 수집하는 경우, 여기서 n은 정수이면 0 이외의 것은 표시되지 않고 사인파 패턴을 모두 놓칠 수 있습니다. 데이터 수집 빈도에 대해 논의하는 샘플링 이론에 대한 기사가 있습니다.


3

나는이 비트를 이해하지 못한다. "불행히도, 응답은 평균값이기 때문에 (평균을 보지 않으면 서 정기적 인 연간 변동만으로도 신호가 엉망이된다")

신중하게 모델링하면 패널 데이터로 모델링하여 많은 것을 얻을 수있는 것 같습니다. 데이터의 공간 범위에 따라 특정 연도 내에 데이터 포인트가 노출 된 온도에 큰 차이가있을 수 있습니다. 이러한 모든 변형의 평균을 계산하는 데 많은 비용이 소요됩니다.


3

테스트의 유효성은 데이터 포인트 수와 관련이 없으며 올바른 모델을 가지고 있다는 가정의 유효성과 관련이 있다고 말합니다.

예를 들어 표준 곡선을 생성하는 데 사용되는 회귀 분석은 3 가지 표준 (낮음, med 및 높음) 만 기반으로 할 수 있지만 점 사이의 반응이 선형이라는 강력한 증거가 있기 때문에 결과가 매우 유효합니다.

반면에 잘못된 모델이 데이터에 적용되면 1000의 데이터 포인트가있는 회귀도 결함이 있습니다.

첫 번째 경우, 모델 예측과 실제 데이터 사이의 변동은 임의의 오류로 인한 것입니다. 두 번째 경우, 모델 예측과 실제 데이터 사이의 일부 변동은 잘못된 모델을 선택함으로써 발생하는 편향 때문입니다.


1

모델을 식별하기 위해 필요한 관측치 수는 데이터의 신호 대 잡음의 비율과 모델의 형태에 따라 다릅니다. , 1,2,3,4,5라는 숫자가 주어지면 6,7,8, ...을 예측할 것입니다 .... Box-Jenkins 모델 식별은 " 우리에게 아이들에게주는 수치 지능. 신호가 강하면 관측이 적고 그 반대도 마찬가지입니다. 관측 된 빈도가 가능한 "계절적 구조"를 제시한다면, 추출하기위한 경험으로 최소한 3 시즌 이상 (바람직하게는 더 많은)이 현상을 반복해야합니다 (기본 설명 통계 (acf / pacf)).


-1

아마도 시계열을 선형 방정식 시스템으로 처리하고 가우스 제거로 해결할 수 있습니다. 물론이 경우 사용 가능한 데이터에 자신을 제한하지만 이는 지불해야하는 유일한 가격입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.