데이터 처리 오류가 이미 통계 분석에 '가격이 책정되어 있습니까?'


10

좋습니다, 공정한 경고-이것은 숫자가없는 철학적 질문입니다. 시간이 지남에 따라 오류가 데이터 세트에 발생하는 방식과 분석가가 처리해야하는 방식 또는 실제로 중요해야하는지에 대해 많이 생각했습니다.

배경을 위해, 나는 7-8 년 동안 아마 25 명에 의해 수집 된 많은 데이터 세트를 포함하는 장기 연구에 대한 분석을 수행하고 있습니다. 아무도 모든 데이터를 일관된 구조로 가져간 사람은 없습니다. 나는 많은 데이터 입력 (오래된 랩 노트의 사본에서 복사)을하고 있었고 다른 사람들이 만든 작은 전사 오류를 계속 발견하고 읽기가 어렵거나 불가능한 데이터 항목을 찾습니다. 주로 잉크 때문에 시간이 지남에 따라 사라졌습니다. 나는 데이터가 말하는 것에 대해 '최상의 추측'을하기 위해 컨텍스트를 사용하고 있으며 확실하지 않은 경우 데이터를 완전히 지적합니다. 그러나 데이터를 복사 할 때마다 원본 데이터가 완전히 손실 될 때까지 오류 빈도가 불가피하게 증가한다는 사실을 계속 생각합니다.

따라서 계측 / 측정 오류 및 기록 오류 외에도 시간이 지남에 따라 데이터를 더 많이 처리할수록 증가하는 기본 '데이터 처리 오류'구성 요소가 있습니다 (주의 : 아마도 열역학 제 2 법칙을 설명하는 또 다른 방법입니다. 데이터 엔트로피는 항상 증가 할 것입니다). 결과적으로, 데이터 세트의 수명 기록 (Bonferroni 보정과 유사한 것)을 설명하기 위해 어떤 종류의 '수정'이 도입되어야하는지 궁금합니다. 다시 말해, 오래된 또는 더 많은 복사 된 데이터 세트의 정확성이 떨어 졌다고 가정하면 그에 따라 결과를 조정해야합니까?

그러나 내 다른 생각은 오류가 데이터 수집 및 데이터 처리의 본질적인 부분이며 모든 통계 테스트가 실제 데이터를 사용하여 개발되었으므로 이러한 오류 소스는 이미 분석에 '가격이 책정 된'것일까 요?

또한 언급 할 가치가있는 또 다른 요점은 데이터 오류가 임의적이기 때문에 결과를 개선하는 것보다 결과의 강도를 줄일 가능성이 훨씬 높다는 것입니다. 즉, 데이터 처리 오류는 유형 1 오류가 아닌 유형 2 오류로 이어질 수 있습니다. . 따라서, 많은 맥락에서, 구식 / 질문이있는 데이터를 사용하고 여전히 효과를 발견 한 경우, 효과가 실제로 있다는 확신을 높일 수 있습니다 (데이터 세트에 임의의 오류를 추가해도 생존 할 수있을만큼 강하기 때문에). 따라서 이런 이유로 '수정'은 다른 방향으로 가거나 ( '찾기'에 필요한 알파 수준을 높이는 것), 아니면 우리에게 문제가되지 않아야합니까?

어쨌든, 너무 장황하고 애매하게해서 죄송합니다.이 질문을 더 간결하게하는 방법을 잘 모르겠습니다. 저와 함께 해 주셔서 감사합니다.


7
좋은 질문입니다 (+1). 그러나 한 가지 요점 : 언급 한 대부분의 데이터 오류를 "무작위"로 취급하는 것은 상당한 오류 일 수 있습니다. 예를 들어, 다른 숫자보다 전사 중에 숫자 "0", "5", "6"및 "8"이 훨씬 더 많이 교환되는 경향이 있습니다 (일부는 "."로 잘못 읽힐 수 있으며 그 반대도 마찬가지 임) ). 또한 주요 데이터 값 (예 : 극단 값)에 대한 변경 사항은 종종 신속하게 식별되고 수정됩니다. 이러한 데이터 손상 프로세스에는 기회가있을 수 있지만 올바르게 특성화하는 것이 중요한 문제가 될 수 있습니다.
whuber

1
데이터 처리 오류를 측정 오류의 일부로 처리하여 처리하는 것은 어떻습니까? 놀이 공원 라이더 수를 측정하기 위해 게이트를보기 위해 20 명을 배치해야하는 경우이 20 명 팀을 일종의 측정 장치로 간주 할 수 있습니다.
Aksakal

@whuber, 8과 5를 섞는 것은 여전히 ​​무작위이지만 5와 7을 섞는 것과 같은 확률을 갖지 않을 수도 있습니다 .
Aksakal

1
@ whuber, 그것은 내가 생각하지 못한 매혹적인 포인트 (특정 유형의 전사 오류의 같지 않은 빈도)입니다. 그것에 대해 더 자세히 배울 수있는 자료를 알려 주시겠습니까? 숫자 빈도를 기준으로 데이터 품질 테스트를 개발할 수 있는지 궁금합니다. 나는 자릿수 빈도를 기반으로 한 사기 / 가짜 데이터에 대한 유사한 테스트에 대해 들었습니다. 따라서 언급 한 추세가 일관되면 비슷한 것이 가능하다고 생각합니다.
Jas Max

@ whuber, 하나 더 생각. 0, 5, 6, 8은 종종 혼란스러워 보입니다. 예를 들어, 누군가가 말한 것을 기록하는 데이터를 듣고 있다면 5와 9가 더 자주 혼란 스러울 것이라고 생각합니다. 오류의 원인이 엔트로피 (잉크 페이딩 또는 전자 이동)라면 대체가 더 임의적이지만 가능할 수도 있다고 생각합니다. 이러한 패턴이 유지되면 숫자 빈도를 기준으로 대규모 데이터 세트의 오류 원인을 조사 할 수 있습니다.
Jas Max

답변:


3

나는 @Aksakal의 제안을 두 번째로 생각한다. 분석가가 잠재적으로 중요한 것으로 측정 오류가 보이는 경우, 데이터 생성 프로세스의 일부로 명시 적으로 모델링 할 수 있고 모델링해야한다.

예를 들어 데이터 세트의 연령에 기반한 일반적인 보정 계수의 도입에 반대하는 몇 가지 고려 사항이 있습니다.

첫째, 나이는 데이터 악화 정도에있어 매우 좋지 않은 대리 일 수 있습니다. 복제, 압축 및 보존 기술과 올바른 전사를 확인하는 데 필요한 노력과 관리의 정도는 분명히 중요한 요소입니다. 일부 고대 문헌들 (예 : 성서)은 수 세기 동안 보존 된 것으로 거의 타락하지 않았습니다. VHS 예제는 합법적이지만 실제로는 각 복제 이벤트에 항상 오류가 발생하고 전사 오류를 확인하고 수정하는 쉬운 방법이 없기 때문에 실제로는 드문 경우 입니다. 더 비싼 시스템에 대한 투자를 통해 도입 된 오류의 정도를 크게 낮추기를 기대합니다.

이 마지막 요점이 더 일반적입니다. 데이터 보존 및 전파는 경제 활동입니다. 전송 품질은 배포 된 리소스에 크게 좌우됩니다. 이러한 선택은 결과적으로 복제 및 전송을 수행하는 사람에게 데이터가 인식하는 중요성에 달려 있습니다.

경제적 인 고려 사항은 분석가에게도 적용됩니다. 분석을 수행 할 때 항상 더 많은 요소를 고려해야합니다. 데이터 전사 오류는 어떤 조건에서 고려할 가치가있을만큼 충분히 중요하고 중요합니까? 나의 직감은 다음과 같습니다. 또한, 잠재적 인 데이터 저하가 분석에서이를 설명하기에 충분히 중요하다고 판단되면, 일반적인 "수정"단계를 삽입하기보다는 프로세스를 명시 적으로 모델링하기 위해 노력하는 것이 중요 할 것입니다.

마지막으로, 이러한 일반적인 보정 계수 de novo 를 개발할 필요가 없습니다 . 측정 오차가 중요한 것으로 간주되는 데이터 세트를 분석하기위한 통계 이론 및 실습이 이미 존재한다.

요컨대, 흥미로운 생각입니다. 그러나 나는 그것이 분석 관행의 변화를 박차로 가야한다고 생각하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.