데이터 정리가 통계 분석 결과를 악화시킬 수 있습니까?


17

바이러스 순환 (2002 년 미국 웨스트 나일 바이러스와 같은) 또는 사람의 저항 감소 또는 음식이나 물의 오염 또는 모기. 이러한 전염병은 1 ~ 5 년마다 발생할 수있는 이상치로 나타납니다. 이러한 특이 치를 제거함으로써 예측 및 질병 이해의 중요한 부분을 형성하는 전염병의 증거를 제거합니다.

전염병으로 인한 특이 치를 처리하는 동안 데이터 정리가 필요합니까?

결과를 향상 시키거나 통계 분석 결과를 악화시킬 것인가?

답변:


12

실제로는 연구 목적에 달려 있습니다. 내 의견으로는 몇 가지가있을 수 있습니다.

  1. 사건과 사망을 유발하는 전형적인 요인이 무엇인지, 유행성 기간에 영향을받지 않는 요인과 유행성 요인을 유발하는 요인을 이해하려고합니다. 그들은 연구의 목적에 의해 그대로 데이터에서 기간, 이상 값 이 체결하고자하는 것에를
  2. 유행성 기간이 발생할 확률을 알고 싶어하기 때문에 모델에 유행성 변경 사항을 포함시킬 수 있습니다 (예를 들어, 규정 전환 모델, 커뮤니티의 좋은 링크 및 모델 제안은 여기에서 환영합니다). 안정성을 테스트하고 예측 하기 위해 지속 됩니다.이 경우 전염병 기간을 제외하지 않고 망치 경제학 도구 또는 유사한 것을 찾는 대신보다 복잡한 모델을 검색하십시오.영형에스
  3. 귀하의 주된 목표는 전염병 기간을 감지하고 실시간으로 모니터링하는 것입니다. 이는 많은 동료들이 빌니우스 대학교에서 협력하고있는 계량 경제학 분야의 특별한 분야입니다 (확실히, )

따라서 기본 목표가 2와 같은 경우 데이터를 지우면 미래 예측에 대한 잘못된 결론, 즉 부정확 한 예측 성능이 발생할 수 있습니다. 두 번째 경우가 반드시 더 나은 예측을 제공 할 필요는 없지만, 전염병 기간의 확률과 기간에 대해 적어도 결론을 내릴 수는 있습니다. 이것은 보험 계리 학자에게 매우 중요하므로 여러분도 그럴 수 있습니까?


위대하고 간단한 대답. 어린 나이에 알만한 지식이 있습니다.
DrWho

15

나는 개인적으로 이것을 "데이터 정리"라고 부르지 않을 것입니다. 데이터 편집의 관점에서 데이터 정리를 더 생각합니다. 데이터 세트의 불일치를 정리합니다 (예 : 레코드에 1000 세가보고되었거나 4 세 이상이 미혼 인 경우 등).

데이터에 실제 효과가 있다고해서 "지저분하게"만들어지는 것은 아닙니다 (반면에 실제 효과가 있으면 풍부하게 만들 수 있습니다). 수학 작업을보다 복잡하게 만들 수 있습니다. 데이터를 예측할 수있는 유일한 방법이라면이 방법으로 데이터를 "정리"하는 것이 좋습니다. 정보를 버리지 않는 적절한 방법이 있다면 그것을 사용하십시오.

이 효과가 주기적으로 발생한다고 가정 할 때 ( "비즈니스주기"와 같은)주기적인 분석의 이점이있을 것 같습니다.

내 관점에서 볼 때, 무언가를 예측하는 경우 해당 소스에서 실제 효과를 제거하면 예측이 더 나빠질 수 있습니다. 예측하려는 정보를 효과적으로 "내버려두기"때문입니다.

다른 요점은 전염병으로 인한 사망자 수와 일반적인 변동으로 인한 사망자 수를 결정하기가 어려울 수 있다는 것입니다.

통계 용어에서, 전염병은 여러분의 관점에서 실제로 분석하고자하는 것에 대한 "불쾌감"입니다. 따라서 특별히 관심이 없지만 분석에서이를 설명해야합니다. 회귀 설정에서이를 수행하는 "빠르고 더러운"방법 중 하나는 전염병 연도 / 기간에 대한 지표를 회귀 변수로 포함하는 것입니다. 이것은 전염병의 영향에 대한 평균 추정치를 제공합니다 (각각의 전염병에 대해 영향이 동일하다고 가정합니다). 그러나이 방법은 예측에서 회귀 변수를 알 수 없기 때문에 효과를 설명하는 데에만 효과가 있습니다 (미래에 어떤 기간이 유행성 기간인지 알 수 없음).

전염병을 설명하는 또 다른 방법은 두 가지 구성 요소가있는 혼합 모델을 사용하는 것입니다. 하나는 전염병 부분 모델과 다른 하나는 "일반"부분 모델입니다. 그런 다음 모델은 두 단계로 진행됩니다. 1) 기간을 전염병 또는 정상으로 분류 한 다음 2) 분류 된 모델을 적용합니다.


(+1) 좋은 제안이지만 더 많지 않은 더 많은 트릭이 가능합니다.
Dmitrij Celov

+1; 후손을 위해 다음과 같은 의견을 말하고 싶습니다. "진정한 효과를 제거하고 ... 예측 만 악화시킬 수 있습니다." 문맥 상, 귀하는 분명히 옳습니다. 그러나 일반적인 경우 이것이 반드시 사실은 아닙니다. (저는 예측 모델링에 큰 영향을 미치는 '바이어스-분산 트레이드 오프'에 대해 생각하고 있습니다.) 다시, 저는 여러분이 여기 있다고 생각합니다. 그리고 여러분은 바이어스-분산 트레이드 오프에 대해 알고 있습니다. 앞으로이 답변을 발견하고 그 진술을 잘못 해석 할 수있는 사람에게 언급하고 싶습니다.
gung-복직 모니카

5

귀하의 질문에 대한 일반적인 답변을 드리기 위해 저의 기존 총괄 관리자 중 한 명을 역설 해 보겠습니다. 연구의 기회는 귀하가 적합한 모델의 특이 치에서 찾을 수 있습니다.

상황은 전자의 전하를 결정하는 데있어 Robert Millikan이 수행 한 실험과 유사합니다. 실험으로 노벨상을 수상한 수십 년 동안 그의 노트를 조사한 결과, 그가 찾은 결과에 동의하지 않기 때문에 많은 데이터 포인트를 버렸습니다. 그 나쁜 과학입니까?

특이 치가 몇 개인 경우 "통계 수차"때문일 수 있습니다. 그러나 특이 치를 몇 개 이상 발견하면 데이터를 더 자세히 탐색해야합니다. 수차의 원인을 설명 할 수없는 경우 프로세스를 이해하지 못하면 통계 모델이 문제를 해결하지 못합니다. 모델의 목적은 프로세스를 요약하는 것이며, 모델은 실험자가 이해하지 못하는 프로세스를 마술로 요약하지 않습니다.


인간의 경향입니다. Robert Millikan도 예외는 아닙니다. 나는 많은 새로운 것들이 깨달았으며 통계 모델의 철학이 강조되어 매우 기쁩니다.
DrWho

5

"데이터 정리"의 역할은 "우리의 법률 (모델)이 작동하지 않는시기"를 식별하는 것입니다. 특이 치 또는 비정상적인 데이터 점을 조정하면 현재 모델에서 매개 변수의 "견고한 추정"을 얻을 수 있습니다. 처리되지 않은 경우 이러한 "이상 값"은 추정이 "가설 모델에 따라 동작하지 않는"이러한 데이터 포인트를 설명하기 위해 구동 됨 "으로 모델 매개 변수에서 원치 않는 왜곡을 허용합니다. 다시 말해, "baddies"에 집중함으로써 Sum of Squares에 대해서는 많은 투자 회수가 있습니다. 현재 모델에없는 원인 요소를 잠재적으로 개발 / 제안하기 위해 세척이 필요한 경험적으로 식별 된 포인트를 면밀히 조사해야합니다.

연간 사례 사망률을 사용하여 한 주와 다른 주에서 개입의 효과를 평가하는 방법은 무엇입니까?

과학을하는 것은 반복되는 패턴을 찾는 것입니다.

이상을 탐지하는 것은 반복되는 패턴을 따르지 않는 값을 식별하는 것입니다. 포인트가 해당 모델을 위반했다는 것을 어떻게 알 수 있습니까? 실제로 이상 값의 성장, 이해, 발견 및 검사 프로세스는 반복적이어야합니다. 이것은 새로운 생각이 아닙니다.

약 400 년 전에 Novum Organum에 쓴 프랜시스 베이컨 경은 다음과 같이 말했습니다.“자연, 스포츠 및 괴물의 오류는 일반적인 사물에 대한 이해를 수정하고 일반적인 형태를 드러냅니다. 자연의 길을 아는 사람이라면 누구나 쉽게 자신의 일탈을 알 수 있습니다. 반면에, 자신의 편차를 아는 사람은 자신의 길을 더 정확하게 설명 할 것입니다.”

현재 규칙이 실패한 시점을 관찰하여 규칙을 변경합니다.

실제로 식별 된 이상 치가 모두 펄스이고 비슷한 효과 (크기)를 갖는 경우 다음을 제안합니다 (다른 포스터에서 인용)

회귀 설정에서이 작업을 수행하는 "빠르고 더러운"방법 중 하나는 전염병 연도 / 기간에 대한 지표를 회귀 변수로 포함시키는 것입니다. 예측에서 회귀 변수를 알 수 없기 때문에이 접근 방식은 효과를 설명하는 데에만 효과가 있습니다 (미래에 어떤 기간이 전염병이 될지 알 수 없음). "

코스가 개별 변칙 (펄스 년)에 비슷한 효과가 있어야하는 경우 서로 다르면 위에서 설명한 portmanteau 변수가 올바르지 않습니다.


@IrishStat : 훌륭한 설명과 기억에 남는 인용문. 선배와 전문 지식을 유지했습니다. 나의 이전 질문 stats.stackexchange.com/questions/8358/…
DrWho

1
@DrWHO : 2014 년에 매우 나빠 보이는 잔차 줄거리를 수정 한 LEVEL SHIFT의 식별은 정책 변경 날짜와 전체 구현 / 실현 날짜 사이의 명백한 지연을 밝히기 때문에 "발견 대기중인 지식"의 예입니다. 2004 년 (17 년 11 년)에 영구적 인 단계 (단계) 전환이 완전히 실현되었다는 진술은 판결 날짜가 몇 년 전에 있었던 사실상의 날짜를 반영한다.
IrishStat

@IrishStat : 설명해 주셔서 감사합니다. 특정 치료법이 질병 결과에 급격한 변화를 일으킬 수 있다고 정책 입안자, 의사 및 대중에게 설득하는 것은 매우 어렵습니다. 수십 년이 걸립니다. 이 레벨 시프트는 2004 년에 새로운 것을 받아들이는 지연을 반영합니다. 질문 stats.stackexchange.com/questions/8358/…
DrWho

1
위의 의견은 2004 년 LEVEL SHIFT였습니다. 혼란에 대해 죄송합니다.
IrishStat

1
@ DrWHO : 귀하의 질문에 대한 답변으로 "질문 교대 상태를 떠나거나 질문을 처리하는 동안 상태 1의 사례 사망률을 계산하기 위해 이상치로 처리하는 것이 좋습니다". 당신이 그것을 취급하지 않는다면, STATE1은 2004 년에 레벨 시프트 변경이 있었지만 STATE2는 다르지 않지만 그 진술에 확률을 둘 수는 없다고 말할 수 있습니다. STATE1을 레벨 시프트로 처리 한 후 2004 년에 상태 변경에 대한 데이터를 정규화했습니다. 정규화 된 데이터 (정리 된 데이터)를 일반성의 손실없이 STATE2의 정규화 된 데이터와 비교할 수 있습니다.
IrishStat

5

후 향적 데이터에서 전염병을 찾는 데 가장 일반적으로 사용되는 방법 중 하나 실제로 특이 치를 찾는 것입니다. 예를 들어, 많은 독감 연구자들은 주로 모델 자체가 아닌 적합 모델의 잔차에 초점을두고 in, day out "모델의 예측 실패-모델이 실패 할 수있는 방법 중 하나는 전염병이 나타나는 것입니다.

그러나 결과에서 특이점을 찾아내는 것은 필수적입니다. 아마도 가장 좋은 아이디어는 아닐 것입니다. 그리고 대부분의 사람들이 "데이터 정리"라고 부르는 것을 구별해야합니다. 여기서 특이 치가 통계적 문제를 나타내는 것이 아니라 데이터 품질 문제를 제기하기 때문에 이상 치를 찾고 있습니다.

예를 들어, 내가 가지고있는 데이터 세트에는 질병의 발병에 대한 변수가 있습니다. 한 주제의 경우,이 날짜는 1929 년 11 월입니다. 이것이 맞다고 생각합니까? 아니요. 수정해야하는 데이터 품질 문제를 나타냅니다.이 경우 주제에 대한 다른 정보를 기반으로 날짜를 수정합니다. 이러한 유형의 데이터 정리는 통계 결과의 품질을 적극적으로 향상시킵니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.