좋습니다, 공정한 경고-이것은 숫자가없는 철학적 질문입니다. 시간이 지남에 따라 오류가 데이터 세트에 발생하는 방식과 분석가가 처리해야하는 방식 또는 실제로 중요해야하는지에 대해 많이 생각했습니다.
배경을 위해, 나는 7-8 년 동안 아마 25 명에 의해 수집 된 많은 데이터 세트를 포함하는 장기 연구에 대한 분석을 수행하고 있습니다. 아무도 모든 데이터를 일관된 구조로 가져간 사람은 없습니다. 나는 많은 데이터 입력 (오래된 랩 노트의 사본에서 복사)을하고 있었고 다른 사람들이 만든 작은 전사 오류를 계속 발견하고 읽기가 어렵거나 불가능한 데이터 항목을 찾습니다. 주로 잉크 때문에 시간이 지남에 따라 사라졌습니다. 나는 데이터가 말하는 것에 대해 '최상의 추측'을하기 위해 컨텍스트를 사용하고 있으며 확실하지 않은 경우 데이터를 완전히 지적합니다. 그러나 데이터를 복사 할 때마다 원본 데이터가 완전히 손실 될 때까지 오류 빈도가 불가피하게 증가한다는 사실을 계속 생각합니다.
따라서 계측 / 측정 오류 및 기록 오류 외에도 시간이 지남에 따라 데이터를 더 많이 처리할수록 증가하는 기본 '데이터 처리 오류'구성 요소가 있습니다 (주의 : 아마도 열역학 제 2 법칙을 설명하는 또 다른 방법입니다. 데이터 엔트로피는 항상 증가 할 것입니다). 결과적으로, 데이터 세트의 수명 기록 (Bonferroni 보정과 유사한 것)을 설명하기 위해 어떤 종류의 '수정'이 도입되어야하는지 궁금합니다. 다시 말해, 오래된 또는 더 많은 복사 된 데이터 세트의 정확성이 떨어 졌다고 가정하면 그에 따라 결과를 조정해야합니까?
그러나 내 다른 생각은 오류가 데이터 수집 및 데이터 처리의 본질적인 부분이며 모든 통계 테스트가 실제 데이터를 사용하여 개발되었으므로 이러한 오류 소스는 이미 분석에 '가격이 책정 된'것일까 요?
또한 언급 할 가치가있는 또 다른 요점은 데이터 오류가 임의적이기 때문에 결과를 개선하는 것보다 결과의 강도를 줄일 가능성이 훨씬 높다는 것입니다. 즉, 데이터 처리 오류는 유형 1 오류가 아닌 유형 2 오류로 이어질 수 있습니다. . 따라서, 많은 맥락에서, 구식 / 질문이있는 데이터를 사용하고 여전히 효과를 발견 한 경우, 효과가 실제로 있다는 확신을 높일 수 있습니다 (데이터 세트에 임의의 오류를 추가해도 생존 할 수있을만큼 강하기 때문에). 따라서 이런 이유로 '수정'은 다른 방향으로 가거나 ( '찾기'에 필요한 알파 수준을 높이는 것), 아니면 우리에게 문제가되지 않아야합니까?
어쨌든, 너무 장황하고 애매하게해서 죄송합니다.이 질문을 더 간결하게하는 방법을 잘 모르겠습니다. 저와 함께 해 주셔서 감사합니다.