2 개의 비 정적 시계열을 비교하여 상관 관계를 결정하는 방법은 무엇입니까?


11

시간이 지남에 따라 평균 연령을 나타내는 두 개의 데이터 시리즈가 있습니다. 두 시리즈 모두 시간이 지남에 따라 사망시 나이가 증가하지만 하나는 다른 것보다 훨씬 낮습니다. 더 낮은 샘플의 사망시 연령 증가가 상위 샘플의 연령 증가와 크게 다른지 확인하고 싶습니다.

다음은 연도별로 (1972 년부터 2009 년까지) 세 개의 소수점 이하 자릿수로 정렬 된 데이터입니다 .

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

두 시리즈 모두 정지 상태입니다. 두 시리즈를 어떻게 비교할 수 있습니까? STATA를 사용하고 있습니다. 모든 조언을 감사히 받겠습니다.

데이터 플롯


데이터에 대한 링크를 제공하면 Matt, 해당 데이터를 포함하도록 질문을 편집 할 수 있습니다.
whuber

나의 고민에 관심을 가져 주셔서 감사합니다-추가 된 데이터에 대한 링크. 어떤 도움을 appreciated.Matt 것
매트 헐리

@ Matt : 데이터를 살펴보면 둘 다 상승 추세 인 것 같습니다. 한 코호트가 다른 코호트보다 더 빠르게 증가한다는 가설에 본질적으로 관심이 있습니까?
앤드류

예 Andrew-상위 집단은 일반 인구이며, 사망 연령이 낮은 집단은 동일한 상태로 사망하는 집단입니다. 귀무 가설은 이들이 밀접하게 상관되어있는 경우 생존의 개선은 잠재적 요인 (및 상기 상태의 개선 된 관리가 아님)에 기인 할 수 있다는 것이다.
매트 헐리

그러나 측정 된 증가는 명백히 다르기 때문에 공식적인 테스트가 필요하지 않습니다. ( 변형을 모델링 한 방법에 관계없이 기울기를 평가하고 비교하는 방법에 관계없이 거의 이하 의 p- 값을 얻을 수 있습니다.) 기대 수명의 차이는 당 0.83 %의 비율로 감소했습니다. 년. 흥미로운 것은 2001 년 코호트 B의 갑작스런 좌절입니다. 6 년의 즉각적인 손실과 동일한이 변화는 통계적으로 중요합니다. 1010
whuber

답변:


14

이것은 간단한 상황입니다. 그렇게하자 중요한 것은 중요한 것에 집중하는 것입니다.

  • 데이터에 대한 유용한 설명을 얻습니다.

  • 해당 설명에서 개별 편차를 평가합니다.

  • 해석에서 우연의 역할과 영향에 대한 평가.

  • 지적 청렴성과 투명성을 유지합니다.

여전히 많은 선택이 있으며 많은 형태의 분석이 유효하고 효과적입니다. 이러한 핵심 원칙을 준수하기 위해 권장 할 수있는 한 가지 접근 방식을 여기에서 설명하겠습니다.

무결성을 유지하기 위해 데이터를 반으로 나눕니다 : 1972 년부터 1990 년까지의 관측치와 1991 년부터 2009 년까지의 관측치 (각각 19 년). 우리는 상반기에 모델을 적합시킨 다음 하반기를 투영하는 데 적합하다는 것을 알 수 있습니다. 이는 하반기 동안 발생할 수있는 중요한 변경 사항을 감지하는 이점이 있습니다.

유용한 설명을 얻으려면 (a) 변경 사항을 측정하는 방법을 찾고 (b) 해당 변경 사항에 적합한 가장 간단한 모델을 맞추고 평가 한 다음 간단한 모델과의 편차를 수용하기 위해 더 복잡한 모델을 반복적으로 적합시켜야합니다.

(a) 많은 선택 사항이 있습니다 : 원시 데이터를 볼 수 있습니다. 그들의 연간 차이를 볼 수 있습니다. 대수를 사용하여 동일한 작업을 수행 할 수 있습니다 (상대적 변경을 평가하기 위해). 잃어버린 수명 또는 상대 수명 (RLE)을 평가할 수 있습니다. 또는 다른 많은 것들. 몇 가지 생각 후, 나는 (참조) 코호트 A에 대한 코호트 B의 기대 수명 비율로 정의 된 RLE를 고려하기로 결정했다. 다행히도, 그래프에서 알 수 있듯이, 코호트 A의 기대 수명은 안정된 RLE에서 무작위로 보이는 변화의 대부분은 Cohort B의 변화로 인한 것입니다.

(b) 시작할 수있는 가장 간단한 모델은 선형 추세입니다. 그것이 얼마나 잘 작동하는지 봅시다.

그림 1

이 그림에서 진한 파란색 점은 피팅을 위해 보유 된 데이터입니다. 라이트 골드 포인트는 후속 데이터이며 적합하지 않습니다. 검은 색 선이 적합하며 경사는 .009 / 년입니다. 점선은 개별 미래 값에 대한 예측 간격입니다.

전반적으로 적합도는 양호 해 보입니다. 잔차 검사 (아래 참조)는 시간이 지남에 따라 크기에 중요한 변화가 없음을 보여줍니다 (1972-1990 년 데이터 기간 동안). (수명이 기대할 때 초기에 더 큰 경향이 있다는 징후가 있습니다. 일부 단순성을 희생하여 이러한 합병증을 처리 할 수는 있지만 추세 추정의 이점은 크지 않을 것입니다.) 가장 작은 힌트가 있습니다. 일련의 상관 관계 (일부 양수와 음수 잔차에 의해 표시됨)이지만 분명히 이것은 중요하지 않습니다. 특이 치가 없으며 예측 대역 이상의 점으로 표시됩니다.

놀랍게도 2001 년에 값이 갑자기 더 낮은 예측 대역으로 떨어지고 거기에 머물렀다는 것이 놀랍습니다 .

잔차는 앞에서 설명한 설명 과의 편차 입니다.

그림 2

잔차를 0과 비교하려고하기 때문에 시각적 인 도움으로 세로선이 0 수준으로 그려집니다. 다시 파란색 점은 적합에 사용 된 데이터를 나타냅니다. 연한 금은 2000 년 이후 예측 하한에 가까운 데이터의 잔차입니다.

이 그림 에서 2000-2001 변경의 효과가 약 -0.07 이라고 추정 할 수 있습니다 . 이는 코호트 B 내에서 전체 수명의 갑작스런 0.07 (7 %) 감소를 반영합니다. 그 감소 후, 잔차의 수평 패턴은 이전 추세가 계속되었지만 새로운 하위 수준에 있음을 나타냅니다. 분석의이 부분은 탐색적인 것으로 간주되어야합니다 . 구체적으로 계획되지 않았지만 보류 된 데이터 (1991-2009)와 나머지 데이터에 대한 적합성 간의 놀라운 비교로 인해 발생했습니다.

또 다른 한 가지는 19 초의 초기 데이터 만 사용하더라도 기울기의 표준 오차는 작습니다. 이는 단지 0.09, 즉 추정치 .009의 10 분의 1에 불과합니다. 자유도가 17 인 해당 t- 통계량 10은 매우 중요합니다 (p- 값이 보다 작음 ). 즉, 트렌드가 우연이 아니라고 확신 할 수 있습니다. 이것은 분석에서 우연의 역할에 대한 평가의 일부입니다. 다른 부분은 잔차 검사입니다.107

시간이 지남에 따라 RLE에 진정한 추세가 있는지 여부를 추정 할 목적 으로 이러한 데이터에 더 복잡한 모델을 적용 할 이유가없는 것 같습니다. 하나가 있습니다. 더 나아가서 추정치 를 세분화하기 위해 2001 년 이전과 2000 년 이후의 값으로 데이터를 분할추세에 대한 것이지만 가설 테스트를 수행하는 것이 완전히 정직하지는 않습니다. 분할 테스트가 미리 계획되지 않았기 때문에 p- 값은 인위적으로 낮습니다. 그러나 탐구적인 운동으로서, 그러한 추정은 괜찮습니다. 데이터에서 가능한 모든 것을 배우십시오! 과적 합 (여섯 개 이상의 매개 변수를 사용하거나 자동화 된 피팅 기술을 사용하는 경우 거의 확실 함) 또는 데이터 스누핑으로 자신을 속이지 않도록 조심하십시오. 귀중한) 데이터 탐색.

요약하자 :

  • 적절한 기대 수명 측정치 (RLE)를 선택하고, 데이터의 절반을 유지하고, 간단한 모델을 맞추고, 나머지 데이터에 대해 해당 모델을 테스트함으로써, 우리는 다음과 같은 확신을 가지고 확립했습니다 . 오랜 기간 동안 선형에 가깝습니다. 2001 년 RLE가 급격히 감소했습니다.

  • 우리의 모델은 놀랍게도 포용 적입니다 . 초기 데이터를 정확하게 설명하기 위해서는 두 개의 숫자 (경사와 절편) 만 있으면됩니다. 이 설명에서 명백하지만 예상치 못한 이탈을 설명하려면 세 번째 (휴식 날짜 2001 년)가 필요합니다. 이 3 개 매개 변수 설명과 관련된 특이 치는 없습니다. 일련의 상관 관계 (일반적으로 시계열 기술의 초점)를 특성화하거나, 나타나는 작은 개별 편차 (잔여)를 설명하거나 더 복잡한 피팅 (2 차 시간 성분을 추가하는 등)을 도입하여 모델을 실질적으로 개선하지는 않습니다. 또는 시간에 따른 잔차의 크기 변화 모델링).

  • 추세는 매년 0.009 RLE입니다 . 이는 각 해마다 코호트 B의 평균 수명이 예상 수명의 0.009 (거의 1 %)에 추가되었음을 의미합니다. 연구 과정 (37 년) 동안, 이는 37 * 0.009 = 0.34 = 전체 수명 개선의 1/3에 해당합니다. 2001 년의 좌절은 1972 년부터 2009 년까지 전체 수명의 약 0.28로 그 이득을 줄였습니다 (이 기간 동안 전체 수명은 10 % 증가했습니다).

  • 이 모델은 개선 될 수 있지만 더 많은 매개 변수가 필요할 가능성이 높으며 (잔차의 거의 임의의 동작이 증명됨에 따라) 개선이 크지 않을 것입니다. 전체적으로, 우리는 분석 작업이 거의 필요하지 않은 작고 유용하며 간단한 데이터 설명에 도달하기에 만족해야합니다 .


: 확인 된 일회성 펄스가 재치 예측에 아무런 영향을 미치지 않음 :
IrishStat

2

whuber의 대답은 간단하고 비 계열이 아닌 사람이 이해할 수있는 간단한 대답이라고 생각합니다. 나는 그를 기반으로합니다. 내 대답은 stata를 잘 모르기 때문에 Stata가 아닌 R에 있습니다.

문제가 실제로 매년 증가하는 절대 연도가 두 집단 (상대적이 아닌)에서 동일한 지 여부를 조사하도록 요구하는지 궁금합니다. 나는 이것이 중요하다고 생각하고 다음과 같이 설명한다. 다음 장난감 예제를 고려하십시오.

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

여기에 이미지 설명을 입력하십시오

여기에는 2 개의 코호트가 있으며 각 코호트는 매년 평균 1 년 평균 생존율이 꾸준히 증가합니다. 따라서 매년이 예의 두 집단 모두 동일한 절대 값만큼 증가하지만 RLE는 다음을 제공합니다.

rle <-  a / b
plot(rle)

여기에 이미지 설명을 입력하십시오

어느 쪽이 상승 추세를 가지고 있으며, 라인 0의 기울기가 2.2e-16이라는 가설을 테스트하기위한 p 값이 있습니다. 적합 직선 (이 선이 곡선으로 보이는 것을 무시하자)의 기울기는 0.008입니다. 따라서 두 코호트 모두 1 년 동안 동일한 절대 증가율을 갖더라도 RLE의 기울기는 증가합니다.

따라서 절대 증가를 찾으려면 RLE을 사용하면 귀무 가설을 부적절하게 거부합니다.

제공된 데이터를 사용하여 우리가 얻는 코호트 간의 절대 차이를 계산합니다. 여기에 이미지 설명을 입력하십시오

이는 평균 생존 사이의 절대 차이가 점차 감소하고 있음을 의미합니다 (즉, 생존율이 낮은 코호트가 생존율이 더 좋은 코호트에 점점 더 가까워지고 있음).


: Andrew는 그래프 끝에서 두 개의 잔차 군집을 기록합니다. 이는 분석에 잠재적 인 결함이 있음을 나타냅니다. 불행히도 숙련 된 통계학자인 숙련 된 수학자조차 때때로 시계열 인물이 아닙니다. 내가 제안한 것은 시계열 분석을위한 표준 운영 절차입니다.
IrishStat

@andrew 니스 응답. 나는 당신의 자격을 믿습니다!
Adam

1
: 아담 좋은 말 감사합니다. 지난 40 년 동안 해당 분야를 전문으로 한 전문 지식이있는 시계열 문제 / 질문에 대해서만 동의합니다.
IrishStat

@IrishStat 터치 식 터치. 좋은 경험, 당신은 내가 태어나 기 전부터 나와 같은 펑크를 제자리에 두었습니다.
Adam

: 아담 모든 아이디어는 다른 사람들을 돕는 것입니다. 나는 그것이 사실이기를 바랍니다. 그런 느낌이 전혀 없어서 "펑크"라는 단어가 혼동됩니다. 그냥 도와 주려고!
IrishStat

1

이 두 시계열은 결정적인 경향이있는 것 같습니다. 이것은 추가 분석 전에 분명히 제거하려는 관계 중 하나입니다. 개인적으로 다음과 같이 진행합니다.

1) 상수 및 시간에 대해 각 시계열에 대해 회귀를 실행하고 각 시계열의 잔차를 계산합니다.

2) 위의 단계에서 계산 된 두 잔차 시리즈를 취하면 간단한 선형 회귀 분석을 수행하고 (상수 항없이) t- 통계, p- 값을보고 사이에 더 많은 의존성이 있는지 여부를 결정합니다. 두 시리즈.

이 분석에서는 선형 회귀 분석에서 가정 한 것과 동일한 가정을 가정합니다.


: user3544 일정한 시간에 대해 회귀를 실행하는 것은 사전 미백의 한 형태 인 디트 렌딩의 한 형태입니다. 차등화는 또 다른 형태의 사전 미백입니다. 두 가지 경향이 있거나 여러 형태의 차등 연산자가있을 수 있기 때문에 추정됩니다. 차분 연산자는 시리즈를 화이트 노이즈로 변환하는 ARIMA 필터의 특별한 경우입니다. 일반적으로 X를 노이즈 (x)로 만들기 위해 X를 필터링 한 다음 Y 또는 X 사이의 구조 또는 전송을 식별하기 위해 Y를 필터에 적용하여 y (필수적으로 화이트 노이즈 일 필요는 없음)를 생성
하려고합니다.

: User3544 단순하고 단순한 단일 트렌드를 사용하여 박수를 보내야했지만 가끔은 가정하지 않아야한다고 생각합니다. 시리즈에 레벨 이동이 있거나 여러 트렌드가있는 경우 간단한 트렌드는 종종 쓸모가 없습니다. Chow Test를 사용하여 임의로 시각적으로 포인트를 선택하지 않고 파라미터가 변경 될 수있는 시점을 검색하는 경우 파라미터의 불일치에 대한 가설을 강력하고 잘 수행해야합니다. 특이한 값의 하향 바이어스 테스트는 자기 상관을 테스트하므로이를 감지해야합니다.
IrishStat

IrishStat : 당신의 박수 잘 받아 소리가 ... :) 나는 완전히 당신과 동의 의견, 그러나, 두 시계열의 플롯 주어, 나는 ... :) "의 그것을 간단한 유지하자"생각
Lalas

1
: user3544 내가 가장 좋아하는 아인슈타인의 인용문은 "모든 것을 가능한 한 단순하게 만들지 만 더 단순하지는 않다"는 것입니다. 또는 모델을 가능한 한 단순하게 만드십시오. 이 경우 레벨 이동을 밝히면서 동시대 상관과 두 동질 집단 사이의 지연 상관 관계를 식별하면 충분할 것입니다. 더 읽기 : brainyquote.com/quotes/quotes/a/...를 .
IrishStat

0

어떤 경우에는 가설을 테스트하는 데 사용할 수있는 이론적 모델을 알고 있습니다. 내 세계에는 "지식"이없는 경우가 많으며 다음을 요약하는 탐색 적 데이터 분석으로 분류 할 수있는 통계적 기법에 의존해야합니다. 정 지적이지 않은 시계열 데이터를 분석 할 때, 즉 자기 상관 특성이있는 간단한 상호 상관 테스트는 다음과 같습니다. 오 탐지가 쉽게 발견 될 수있는 한 종종 오도합니다. 이것에 대한 가장 초기 분석 중 하나는 1926 년 GU의 Yule에서 발견된다. "왜 우리는 때때로 시계열간에 넌센스 상관 관계를 얻는가? 샘플링과 시계열의 특성 연구", Royal Statistical Society 89, 1– 64. 또는 하나 이상의 시리즈 자체가 예외적 인 활동으로 영향을받은 경우 (whuber " 2001 년 코호트 B의 갑작스런 퇴보는 중대한 관계를 효과적으로 숨길 수있다. 이제 시계열 사이의 관계를 감지하면 동시 관계뿐만 아니라 지연 관계도 검사 할 수 있습니다. 계속해서 어느 시리즈가 이상 현상 (일회성 이벤트)에 의해 영향을받는 경우 이러한 일회성 왜곡을 조정하여 분석을 강화해야합니다. 시계열의 문헌은 구조를보다 명확하게 식별하기 위해 사전 미백을 통해 관계를 식별하는 방법을 지적합니다. 사전 미백은 상호 상관 구조를 식별하기 전에 상관 내 구조를 조정합니다. 키워드가 구조를 식별하고 있음을 주목하십시오. 이 접근 방식은 다음과 같은 "유용한 모델"로 쉽게 이어집니다. 이제 시계열 사이의 관계를 감지하면 동시 관계뿐만 아니라 지연 관계도 검사 할 수 있습니다. 계속해서 어느 시리즈가 이상 현상 (일회성 이벤트)에 의해 영향을받는 경우 이러한 일회성 왜곡을 조정하여 분석을 강화해야합니다. 시계열의 문헌은 구조를보다 명확하게 식별하기 위해 사전 미백을 통해 관계를 식별하는 방법을 지적합니다. 사전 미백은 상호 상관 구조를 식별하기 전에 상관 내 구조를 조정합니다. 키워드가 구조를 식별하고 있음을 주목하십시오. 이 접근 방식은 다음과 같은 "유용한 모델"로 쉽게 이어집니다. 이제 시계열 사이의 관계를 감지하면 동시 관계뿐만 아니라 지연된 관계를 검사 할 수 있습니다. 계속해서 어느 시리즈가 이상 현상 (일회성 이벤트)에 의해 영향을받는 경우 이러한 일회성 왜곡을 조정하여 분석을 강화해야합니다. 시계열의 문헌은 구조를보다 명확하게 식별하기 위해 사전 미백을 통해 관계를 식별하는 방법을 지적합니다. 사전 미백은 상관 관계 구조를 식별하기 전에 상관 관계 구조를 조정합니다. 키워드가 구조를 식별하고 있음을 주목하십시오. 이 접근 방식은 다음과 같은 "유용한 모델"로 쉽게 이어집니다. 어느 시리즈가 이상 현상 (일회성 이벤트)에 영향을받는 경우 이러한 일회성 왜곡을 조정하여 분석을 강화해야합니다. 시계열의 문헌은 구조를보다 명확하게 식별하기 위해 사전 미백을 통해 관계를 식별하는 방법을 지적합니다. 사전 미백은 상관 관계 구조를 식별하기 전에 상관 관계 구조를 조정합니다. 키워드가 구조를 식별하고 있음을 주목하십시오. 이 접근 방식은 다음과 같은 "유용한 모델"로 쉽게 이어집니다. 어느 시리즈가 이상 현상 (일회성 이벤트)에 의해 영향을받는 경우 이러한 일회성 왜곡을 조정하여 분석을 강화해야합니다. 시계열의 문헌은 구조를보다 명확하게 식별하기 위해 사전 미백을 통해 관계를 식별하는 방법을 지적합니다. 사전 미백은 상호 상관 구조를 식별하기 전에 상관 내 구조를 조정합니다. 키워드가 구조를 식별하고 있음을 주목하십시오. 이 접근 방식은 다음과 같은 "유용한 모델"로 쉽게 이어집니다. 키워드가 구조를 식별하고 있음을 주목하십시오. 이 접근 방식은 다음과 같은 "유용한 모델"로 쉽게 이어집니다. 키워드가 구조를 식별하고 있음을 주목하십시오. 이 접근 방식은 다음과 같은 "유용한 모델"로 쉽게 이어집니다.

Y (T) = -194.45
+ [X1 (T)] [(+ 1.2396+ 1.6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

이는 1.2936의 현대적인 관계와 1.6523의 지연 효과를 나타냅니다. 비정상적인 활동이 발견 된 몇 년이있었습니다. (1975,2001,1983,1999,1976,1985,1984,1991 및 1989). 수년간의 조정으로 우리는이 두 시리즈 간의 관계를보다 명확하게 평가할 수 있습니다.

예측의 관점에서

XARMAX로 표현 된 모형
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ 상수

올바른 측면 상수 : -194.45

COHORTA 0 1.239589 X (39) * 78.228616 = 96.971340

COHORTA 1 1.652332 X (38) * 77.983000 = 128.853835

I ~ L00030 0 -2.475963 X (39) * 1.000000 = -2.475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Cohorta에 대한 ARIMA 모델에서 얻은 기간 39 (78.228616)에서 CohortA에 대한 예측 및 물론 예측에 필요한 모든 계수는 4 가지입니다.


4
38 년 중 9 명이 "비정상적인"활동을 보입니까? 25 개의 매개 변수가있는 모델에서?! 그 해석에 문제가 있습니다. 이러한 모든 펄스와 레벨 이동 외에도 코호트 b의 추세에서 비선형 성분 을 발견 했습니까?
whuber

2
오른쪽 열의 숫자는 무엇입니까 (3, 30, 29, 11 등)? 그것들은 데이터에 대한 설명의 일부인 것처럼 보이므로 매개 변수이기도합니다. 우리가 그것들을 세지 않더라도, 38 개의 값을 설명하기 위해 14 개의 매개 변수를 사용하는 것은, 특히 질문이 단순히 "추세가 있습니까?"일 때 과도하게 보입니다. 그 문제의 추세는 정확히 무엇입니까? 이 모든 추정에서 어디에서 그것을 파헤치는가? 의사가 당신에게 다가와서 "오, 1972 년 이후 코호트 B의 환자들에게 어떤 성과를 거두었습니까?"라고 물었다면, 분명한 문장으로 그들에게 말할 수 있습니까?
whuber

2
"매우 강력한 예측": 모델이 무엇을 의미하는지 오해 할 수도 있지만 일반적으로 데이터의 1/4을 "비정상적인"것으로 식별하고 "조정"을 요구하는 방법 (시계열 또는 기타)에 대한 더 나은 설명은 다음과 같습니다. "과적 합한"그리고 "필요하게 복잡한" 코호트 B의 추세에 대한 당신의 주장은 단순히 놀라운 것입니다.
whuber

2
@Adam,이 분석은 본질적으로 10 개의 "펄스"에 포함 된 변동성에 대한 정보를 무시하기 때문에 예측 주위에 배치되는 예측 대역은 지나치게 지나치게 낙관적입니다 (너무 빡빡합니다). 또한 모든 데이터를 포함하는 심층 분석 (상반기 만 포함하는 예시 분석과 달리)은 추세의 약간의 감소와 일치하는 비선형 구성 요소를 감지하며 여기에서도 감지되지 않습니다. 예측보다 더 중요한 것은 2000-2001 효과를 이해하는 것입니다. 반복 될 수 있다면 모든 예측이 잘못되었을 가능성이 있습니다.
whuber

1
@ whuber 나는 모든 전문 용어를 알지 못하지만 당신의 설명은 의미가 있습니다. 고마워
Adam

-1

이 답변에는 일부 그래픽이 포함되어 있습니다 유용한 모델의 잔차! [] [1]

중재의 실제 청소모형 잔차의 acf여기에 이미지 설명을 입력하십시오 CohortB의 적합과 예측 모델의 잔재실제 적합 및 예측

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.