답변:
실제로는 연구 목적에 달려 있습니다. 내 의견으로는 몇 가지가있을 수 있습니다.
따라서 기본 목표가 2와 같은 경우 데이터를 지우면 미래 예측에 대한 잘못된 결론, 즉 부정확 한 예측 성능이 발생할 수 있습니다. 두 번째 경우가 반드시 더 나은 예측을 제공 할 필요는 없지만, 전염병 기간의 확률과 기간에 대해 적어도 결론을 내릴 수는 있습니다. 이것은 보험 계리 학자에게 매우 중요하므로 여러분도 그럴 수 있습니까?
나는 개인적으로 이것을 "데이터 정리"라고 부르지 않을 것입니다. 데이터 편집의 관점에서 데이터 정리를 더 생각합니다. 데이터 세트의 불일치를 정리합니다 (예 : 레코드에 1000 세가보고되었거나 4 세 이상이 미혼 인 경우 등).
데이터에 실제 효과가 있다고해서 "지저분하게"만들어지는 것은 아닙니다 (반면에 실제 효과가 있으면 풍부하게 만들 수 있습니다). 수학 작업을보다 복잡하게 만들 수 있습니다. 데이터를 예측할 수있는 유일한 방법이라면이 방법으로 데이터를 "정리"하는 것이 좋습니다. 정보를 버리지 않는 적절한 방법이 있다면 그것을 사용하십시오.
이 효과가 주기적으로 발생한다고 가정 할 때 ( "비즈니스주기"와 같은)주기적인 분석의 이점이있을 것 같습니다.
내 관점에서 볼 때, 무언가를 예측하는 경우 해당 소스에서 실제 효과를 제거하면 예측이 더 나빠질 수 있습니다. 예측하려는 정보를 효과적으로 "내버려두기"때문입니다.
다른 요점은 전염병으로 인한 사망자 수와 일반적인 변동으로 인한 사망자 수를 결정하기가 어려울 수 있다는 것입니다.
통계 용어에서, 전염병은 여러분의 관점에서 실제로 분석하고자하는 것에 대한 "불쾌감"입니다. 따라서 특별히 관심이 없지만 분석에서이를 설명해야합니다. 회귀 설정에서이를 수행하는 "빠르고 더러운"방법 중 하나는 전염병 연도 / 기간에 대한 지표를 회귀 변수로 포함하는 것입니다. 이것은 전염병의 영향에 대한 평균 추정치를 제공합니다 (각각의 전염병에 대해 영향이 동일하다고 가정합니다). 그러나이 방법은 예측에서 회귀 변수를 알 수 없기 때문에 효과를 설명하는 데에만 효과가 있습니다 (미래에 어떤 기간이 유행성 기간인지 알 수 없음).
전염병을 설명하는 또 다른 방법은 두 가지 구성 요소가있는 혼합 모델을 사용하는 것입니다. 하나는 전염병 부분 모델과 다른 하나는 "일반"부분 모델입니다. 그런 다음 모델은 두 단계로 진행됩니다. 1) 기간을 전염병 또는 정상으로 분류 한 다음 2) 분류 된 모델을 적용합니다.
귀하의 질문에 대한 일반적인 답변을 드리기 위해 저의 기존 총괄 관리자 중 한 명을 역설 해 보겠습니다. 연구의 기회는 귀하가 적합한 모델의 특이 치에서 찾을 수 있습니다.
상황은 전자의 전하를 결정하는 데있어 Robert Millikan이 수행 한 실험과 유사합니다. 실험으로 노벨상을 수상한 수십 년 동안 그의 노트를 조사한 결과, 그가 찾은 결과에 동의하지 않기 때문에 많은 데이터 포인트를 버렸습니다. 그 나쁜 과학입니까?
특이 치가 몇 개인 경우 "통계 수차"때문일 수 있습니다. 그러나 특이 치를 몇 개 이상 발견하면 데이터를 더 자세히 탐색해야합니다. 수차의 원인을 설명 할 수없는 경우 프로세스를 이해하지 못하면 통계 모델이 문제를 해결하지 못합니다. 모델의 목적은 프로세스를 요약하는 것이며, 모델은 실험자가 이해하지 못하는 프로세스를 마술로 요약하지 않습니다.
"데이터 정리"의 역할은 "우리의 법률 (모델)이 작동하지 않는시기"를 식별하는 것입니다. 특이 치 또는 비정상적인 데이터 점을 조정하면 현재 모델에서 매개 변수의 "견고한 추정"을 얻을 수 있습니다. 처리되지 않은 경우 이러한 "이상 값"은 추정이 "가설 모델에 따라 동작하지 않는"이러한 데이터 포인트를 설명하기 위해 구동 됨 "으로 모델 매개 변수에서 원치 않는 왜곡을 허용합니다. 다시 말해, "baddies"에 집중함으로써 Sum of Squares에 대해서는 많은 투자 회수가 있습니다. 현재 모델에없는 원인 요소를 잠재적으로 개발 / 제안하기 위해 세척이 필요한 경험적으로 식별 된 포인트를 면밀히 조사해야합니다.
연간 사례 사망률을 사용하여 한 주와 다른 주에서 개입의 효과를 평가하는 방법은 무엇입니까?
과학을하는 것은 반복되는 패턴을 찾는 것입니다.
이상을 탐지하는 것은 반복되는 패턴을 따르지 않는 값을 식별하는 것입니다. 포인트가 해당 모델을 위반했다는 것을 어떻게 알 수 있습니까? 실제로 이상 값의 성장, 이해, 발견 및 검사 프로세스는 반복적이어야합니다. 이것은 새로운 생각이 아닙니다.
약 400 년 전에 Novum Organum에 쓴 프랜시스 베이컨 경은 다음과 같이 말했습니다.“자연, 스포츠 및 괴물의 오류는 일반적인 사물에 대한 이해를 수정하고 일반적인 형태를 드러냅니다. 자연의 길을 아는 사람이라면 누구나 쉽게 자신의 일탈을 알 수 있습니다. 반면에, 자신의 편차를 아는 사람은 자신의 길을 더 정확하게 설명 할 것입니다.”
현재 규칙이 실패한 시점을 관찰하여 규칙을 변경합니다.
실제로 식별 된 이상 치가 모두 펄스이고 비슷한 효과 (크기)를 갖는 경우 다음을 제안합니다 (다른 포스터에서 인용)
회귀 설정에서이 작업을 수행하는 "빠르고 더러운"방법 중 하나는 전염병 연도 / 기간에 대한 지표를 회귀 변수로 포함시키는 것입니다. 예측에서 회귀 변수를 알 수 없기 때문에이 접근 방식은 효과를 설명하는 데에만 효과가 있습니다 (미래에 어떤 기간이 전염병이 될지 알 수 없음). "
코스가 개별 변칙 (펄스 년)에 비슷한 효과가 있어야하는 경우 서로 다르면 위에서 설명한 portmanteau 변수가 올바르지 않습니다.
후 향적 데이터에서 전염병을 찾는 데 가장 일반적으로 사용되는 방법 중 하나 는 실제로 특이 치를 찾는 것입니다. 예를 들어, 많은 독감 연구자들은 주로 모델 자체가 아닌 적합 모델의 잔차에 초점을두고 in, day out "모델의 예측 실패-모델이 실패 할 수있는 방법 중 하나는 전염병이 나타나는 것입니다.
그러나 결과에서 특이점을 찾아내는 것은 필수적입니다. 아마도 가장 좋은 아이디어는 아닐 것입니다. 그리고 대부분의 사람들이 "데이터 정리"라고 부르는 것을 구별해야합니다. 여기서 특이 치가 통계적 문제를 나타내는 것이 아니라 데이터 품질 문제를 제기하기 때문에 이상 치를 찾고 있습니다.
예를 들어, 내가 가지고있는 데이터 세트에는 질병의 발병에 대한 변수가 있습니다. 한 주제의 경우,이 날짜는 1929 년 11 월입니다. 이것이 맞다고 생각합니까? 아니요. 수정해야하는 데이터 품질 문제를 나타냅니다.이 경우 주제에 대한 다른 정보를 기반으로 날짜를 수정합니다. 이러한 유형의 데이터 정리는 통계 결과의 품질을 적극적으로 향상시킵니다.