이것은 간단한 상황입니다. 그렇게하자 중요한 것은 중요한 것에 집중하는 것입니다.
데이터에 대한 유용한 설명을 얻습니다.
해당 설명에서 개별 편차를 평가합니다.
해석에서 우연의 역할과 영향에 대한 평가.
지적 청렴성과 투명성을 유지합니다.
여전히 많은 선택이 있으며 많은 형태의 분석이 유효하고 효과적입니다. 이러한 핵심 원칙을 준수하기 위해 권장 할 수있는 한 가지 접근 방식을 여기에서 설명하겠습니다.
무결성을 유지하기 위해 데이터를 반으로 나눕니다 : 1972 년부터 1990 년까지의 관측치와 1991 년부터 2009 년까지의 관측치 (각각 19 년). 우리는 상반기에 모델을 적합시킨 다음 하반기를 투영하는 데 적합하다는 것을 알 수 있습니다. 이는 하반기 동안 발생할 수있는 중요한 변경 사항을 감지하는 이점이 있습니다.
유용한 설명을 얻으려면 (a) 변경 사항을 측정하는 방법을 찾고 (b) 해당 변경 사항에 적합한 가장 간단한 모델을 맞추고 평가 한 다음 간단한 모델과의 편차를 수용하기 위해 더 복잡한 모델을 반복적으로 적합시켜야합니다.
(a) 많은 선택 사항이 있습니다 : 원시 데이터를 볼 수 있습니다. 그들의 연간 차이를 볼 수 있습니다. 대수를 사용하여 동일한 작업을 수행 할 수 있습니다 (상대적 변경을 평가하기 위해). 잃어버린 수명 또는 상대 수명 (RLE)을 평가할 수 있습니다. 또는 다른 많은 것들. 몇 가지 생각 후, 나는 (참조) 코호트 A에 대한 코호트 B의 기대 수명 비율로 정의 된 RLE를 고려하기로 결정했다. 다행히도, 그래프에서 알 수 있듯이, 코호트 A의 기대 수명은 안정된 RLE에서 무작위로 보이는 변화의 대부분은 Cohort B의 변화로 인한 것입니다.
(b) 시작할 수있는 가장 간단한 모델은 선형 추세입니다. 그것이 얼마나 잘 작동하는지 봅시다.
이 그림에서 진한 파란색 점은 피팅을 위해 보유 된 데이터입니다. 라이트 골드 포인트는 후속 데이터이며 적합하지 않습니다. 검은 색 선이 적합하며 경사는 .009 / 년입니다. 점선은 개별 미래 값에 대한 예측 간격입니다.
전반적으로 적합도는 양호 해 보입니다. 잔차 검사 (아래 참조)는 시간이 지남에 따라 크기에 중요한 변화가 없음을 보여줍니다 (1972-1990 년 데이터 기간 동안). (수명이 기대할 때 초기에 더 큰 경향이 있다는 징후가 있습니다. 일부 단순성을 희생하여 이러한 합병증을 처리 할 수는 있지만 추세 추정의 이점은 크지 않을 것입니다.) 가장 작은 힌트가 있습니다. 일련의 상관 관계 (일부 양수와 음수 잔차에 의해 표시됨)이지만 분명히 이것은 중요하지 않습니다. 특이 치가 없으며 예측 대역 이상의 점으로 표시됩니다.
놀랍게도 2001 년에 값이 갑자기 더 낮은 예측 대역으로 떨어지고 거기에 머물렀다는 것이 놀랍습니다 .
잔차는 앞에서 설명한 설명 과의 편차 입니다.
잔차를 0과 비교하려고하기 때문에 시각적 인 도움으로 세로선이 0 수준으로 그려집니다. 다시 파란색 점은 적합에 사용 된 데이터를 나타냅니다. 연한 금은 2000 년 이후 예측 하한에 가까운 데이터의 잔차입니다.
이 그림 에서 2000-2001 변경의 효과가 약 -0.07 이라고 추정 할 수 있습니다 . 이는 코호트 B 내에서 전체 수명의 갑작스런 0.07 (7 %) 감소를 반영합니다. 그 감소 후, 잔차의 수평 패턴은 이전 추세가 계속되었지만 새로운 하위 수준에 있음을 나타냅니다. 분석의이 부분은 탐색적인 것으로 간주되어야합니다 . 구체적으로 계획되지 않았지만 보류 된 데이터 (1991-2009)와 나머지 데이터에 대한 적합성 간의 놀라운 비교로 인해 발생했습니다.
또 다른 한 가지는 19 초의 초기 데이터 만 사용하더라도 기울기의 표준 오차는 작습니다. 이는 단지 0.09, 즉 추정치 .009의 10 분의 1에 불과합니다. 자유도가 17 인 해당 t- 통계량 10은 매우 중요합니다 (p- 값이 보다 작음 ). 즉, 트렌드가 우연이 아니라고 확신 할 수 있습니다. 이것은 분석에서 우연의 역할에 대한 평가의 일부입니다. 다른 부분은 잔차 검사입니다.10− 7
시간이 지남에 따라 RLE에 진정한 추세가 있는지 여부를 추정 할 목적 으로 이러한 데이터에 더 복잡한 모델을 적용 할 이유가없는 것 같습니다. 하나가 있습니다. 더 나아가서 추정치 를 세분화하기 위해 2001 년 이전과 2000 년 이후의 값으로 데이터를 분할추세에 대한 것이지만 가설 테스트를 수행하는 것이 완전히 정직하지는 않습니다. 분할 테스트가 미리 계획되지 않았기 때문에 p- 값은 인위적으로 낮습니다. 그러나 탐구적인 운동으로서, 그러한 추정은 괜찮습니다. 데이터에서 가능한 모든 것을 배우십시오! 과적 합 (여섯 개 이상의 매개 변수를 사용하거나 자동화 된 피팅 기술을 사용하는 경우 거의 확실 함) 또는 데이터 스누핑으로 자신을 속이지 않도록 조심하십시오. 귀중한) 데이터 탐색.
요약하자 :
적절한 기대 수명 측정치 (RLE)를 선택하고, 데이터의 절반을 유지하고, 간단한 모델을 맞추고, 나머지 데이터에 대해 해당 모델을 테스트함으로써, 우리는 다음과 같은 확신을 가지고 확립했습니다 . 오랜 기간 동안 선형에 가깝습니다. 2001 년 RLE가 급격히 감소했습니다.
우리의 모델은 놀랍게도 포용 적입니다 . 초기 데이터를 정확하게 설명하기 위해서는 두 개의 숫자 (경사와 절편) 만 있으면됩니다. 이 설명에서 명백하지만 예상치 못한 이탈을 설명하려면 세 번째 (휴식 날짜 2001 년)가 필요합니다. 이 3 개 매개 변수 설명과 관련된 특이 치는 없습니다. 일련의 상관 관계 (일반적으로 시계열 기술의 초점)를 특성화하거나, 나타나는 작은 개별 편차 (잔여)를 설명하거나 더 복잡한 피팅 (2 차 시간 성분을 추가하는 등)을 도입하여 모델을 실질적으로 개선하지는 않습니다. 또는 시간에 따른 잔차의 크기 변화 모델링).
추세는 매년 0.009 RLE입니다 . 이는 각 해마다 코호트 B의 평균 수명이 예상 수명의 0.009 (거의 1 %)에 추가되었음을 의미합니다. 연구 과정 (37 년) 동안, 이는 37 * 0.009 = 0.34 = 전체 수명 개선의 1/3에 해당합니다. 2001 년의 좌절은 1972 년부터 2009 년까지 전체 수명의 약 0.28로 그 이득을 줄였습니다 (이 기간 동안 전체 수명은 10 % 증가했습니다).
이 모델은 개선 될 수 있지만 더 많은 매개 변수가 필요할 가능성이 높으며 (잔차의 거의 임의의 동작이 증명됨에 따라) 개선이 크지 않을 것입니다. 전체적으로, 우리는 분석 작업이 거의 필요하지 않은 작고 유용하며 간단한 데이터 설명에 도달하기에 만족해야합니다 .