일관성 검사 란 무엇입니까?


11

나는 "일일 작업에서 일관성 검사를 했습니까?"와 같은 질문을 받았습니다. Biostatistician 입장을위한 전화 인터뷰 중. 무엇을 대답해야할지 모르겠습니다. 모든 정보를 부탁드립니다.

답변:


17

솔직한 데이터 처리 오류에 중점을 둔 chl의 목록에 다음 질문과 문제를 해결하기 위해 미묘한 오류에 대한 검사를 추가합니다 (특별한 순서로 제공되지 않았으며 확실히 불완전합니다).

  1. 데이터베이스 무결성을 가정하면 데이터가 합리적입니까? 그들은 기대 또는 기존 모델과 대략 일치합니까?

  2. 데이터가 내부적으로 일관성이 있습니까? 예를 들어 한 필드가 다른 두 필드의 합이어야한다면?

  3. 데이터가 얼마나 완전합니까? 데이터 수집 계획 단계에서 지정한 내용입니까? 계획되지 않은 추가 데이터가 있습니까? 그렇다면 왜 거기에 있습니까?

  4. 대부분의 분석은 암묵적으로 또는 명시 적으로 데이터를 모델링하여 일반적인 설명과 다른 가능성을 포함합니다. 이러한 각 모델은 특이 치를 식별하는 고유 한 방법 (일반적인 설명에서 현저하게 벗어난 데이터)을 제안합니다. 탐사 및 분석의 각 단계에서 특이 치를 식별하고 이해하려는 시도가 있었습니까?

  5. 많은 경우 분석가가 품질 검사 및 통찰력을 위해 분석에 추가 데이터를 도입 할 수 있습니다. 예를 들어, 자연 및 사회 과학 및 비즈니스의 많은 데이터 세트에는 위치 정보가 포함됩니다 (적어도 암시 적으로) : 인구 조사 지역의 식별자; 국가, 주, 카운티의 이름; 고객 우편 번호; 등등. 공간 상관이 EDA 또는 모델링의 요소가 아닌 경우에도 (특히 경우에 따라) 분석가는 데이터를 위치의 지리적 표현에 결합하고이를 패턴 및 특이 값을 찾기 위해 매핑 할 수 있습니다.

  6. 분석에 영향을 줄 수있는 가장 교활한 오류 중 하나는 데이터 손실입니다. 필드를 추출하거나, 데이터를 요약하거나, 데이터 세트를 다시 포맷 할 때, 하나 또는 두 개의 항목이 큰 데이터 세트에서 삭제되는 경우 종종 플래그를 지정할 것이 없습니다. 그러나 때때로 중요한 사실이 발견되면 극도의 당혹 스러움을 잃게됩니다. 카운트 전후의 데이터와 총 데이터를 비교하는 것과 같은 간단한 점검은 그러한 것들을 막기 위해 일상적으로 수행되어야합니다.

  7. 또 다른 교활한 오류는 디지털 컴퓨팅의 유형 변환과 관련이 있습니다. 예를 들어, 최근에는 부동 소수점 필드에서 키 (2 개의 데이터 파일을 일치시키기 위해)를 구성해야했습니다. 소프트웨어 (Stata)는 필드를 한 파일에서 단 정밀도 부동 소수점으로 가져 왔지만 어떤 이유로 든 다른 파일에서 배정도 부동 소수점으로 가져 왔습니다. 대부분의 경우 값이 일치했지만 다른 반올림으로 인해 일부 경우 일치하지 않았습니다. 결과적으로 일부 데이터가 손실되었습니다. 나는 (6)의 적용으로 인해 이것을 잡았습니다. 일반적으로 필드 데이터 유형의 일관성을 검사하기 위해 지불합니다 : int vs. floats, 문자열 길이 등

  8. 스프레드 시트가 지금에 사용하는 경우 모든 분석 단계, 최악을 기대합니다. 문제는 키를 눌렀을 때도 데이터가 보이지 않게 손상 될 수 있다는 것입니다. 결과가 중요한 경우 스프레드 시트로 내보내기, 분석, 가져 오기 및 체계적으로 비교하여 계속해서 앞뒤로 이동하여 비용이 발생하지 않도록합니다.

  9. 데이터베이스가 업데이트 될 때마다 이전 데이터베이스와의 체계적이고 완전한 비교를 일시 중지하고 수행하여 프로세스에서 손실, 변경 또는 손상이 없는지 확인하는 것이 좋습니다.

  10. 더 높은 수준에서, 회귀, PCA 등과 같은 추정이 수행 될 때마다 코드의 민감성 또는 가능한 오류를 확인하기 위해 다른 기술을 사용하여 수행하는 것이 좋습니다. 예를 들어, 강력한 회귀의 형태로 OLS 회귀를 따르고 계수를 비교하십시오. 중요한 결과를 얻으려면 두 개 이상의 서로 다른 소프트웨어 플랫폼을 사용하여 답변을 얻는 것이 편안 할 수 있습니다.

아마도 누구나 수행 할 수있는 가장 일반적인 종류의 "일관성 검사"는 모든 것을 조기에 그리고 자주 그래프로 작성하는 것입니다.


8

나는 이것이 데이터 무결성 에 관한 어떤 형태의 품질 관리와 관련이 있다고 생각합니다. 더 구체적으로 당신은 정기적으로 (전송, 복사 중 또는 업데이트 또는 온 전성 검사 후 오류로 인해) 작업중 인 데이터베이스가 손상되지 않았는지 정기적으로 확인합니다. 이는 또한 중간 계산이 수동으로 또는 통계 소프트웨어의 추가 코드 또는 매크로를 통해 이중 확인되는 것을 의미 할 수도 있습니다.

다른 정보는 여기에서 찾을 수 있습니다 : EMEA의 우수 임상 실습 지침, 우수 임상 실험실 실무 지침 또는 임상 연구 연구 조사관의 도구에 대한 ICH E6 (R1) 참조 안내서 .


1

다른 좋은 점에 추가

Excel을 사용할 때 항상 각 줄의 첫 번째 열로 사례 번호를 생성 한 다음 마지막 열에 복사합니다. Excel은 한 번에 몇 개의 열을 정렬하는 것이 매우 기쁜 것 같습니다. 모두 선택하지 않으면 혼란을 초래할 수 있습니다. 당신은 이것이 일어난 것을 알지 못할 수도 있습니다. 사례 번호가 행의 첫 번째 및 마지막 열에서 일치하는지 확인할 수있는 것이 유용한 예방책입니다.

나는 항상 특이 치를 검토합니다.

중요한 작업에는 별도의 사람들이 데이터를 두 번 입력하는 것이 좋습니다.

종이 문서에서 데이터를 입력 할 때 참조 식별자를 사용하여 항목이 파생 된 정확한 문서 및 행을 다시 참조 할 수 있도록하는 것이 좋습니다.

편집-다른 항목-스프레드 시트 편집에 문제가 있다는 것을 알고 있지만 데이터 입력을 정리하는 것이 훨씬 쉽습니다. 그러나 원본 편집되지 않은 버전도 유지하므로 변경 사항을 확인하거나 최악의 경우 복원 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.