통계 법의학 : 벤 포드와 그 너머


23

제 3자가 생산 한 과학 저작물에서 사기, 이상, 퍼징 등을 탐지하기위한 광범위한 방법은 무엇입니까? (최근 Marc Hauser 사건 으로이 사실을 묻게되었습니다 .) 일반적으로 선거 및 회계 사기의 경우 벤 포드 법의 일부 변형 이 인용됩니다. 나는 이것이 적용 할 수 없습니다 확인하는 방법입니다 예 : 벤 포드의 법칙이 약 유니폼을 기록 할 번호를 필요로하기 때문에의 마크 하우저 케이스.

구체적인 예로서, 한 논문이 많은 통계 테스트에 대한 p- 값을 인용했다고 가정합니다. 균일 성을 로그하기 위해 이것을 변형시킨 다음 Benford의 법칙을 적용 할 수 있습니까? 이 접근 방식에는 모든 종류의 문제가있는 것처럼 보입니다 ( 예 : 일부 귀무 가설은 합법적으로 거짓 일 수 있습니다. 통계 코드는 대략적으로 정확한 p 값을 제공 할 수 있으며 테스트는 균일 한 p 값만 제공 할 수 있습니다 무조건 null 등에서)


2
이 질문에는 통계적 법의학의 실제 예를 제공하는 답변이 절실히 필요합니다! 수락 된 답변은 전혀하지 않습니다. Simonsohn 2013 , Carlisle 2012 (및 2015 follow-up ), Pitt and Hill 2013 등과 같은 최근의 좋은 예가 있습니다.
amoeba는 Reinstate Monica

답변:


11

좋은 질문입니다!

과학적 맥락에서 다양한 종류의 문제보고 및 문제 행동이 있습니다.

  • 사기 : 나는 사기를 저자 나 분석가가 결과를 잘못 표현하고 허위 진술이 충분히 중대한 성격을 갖는 의도적 인 의도라고 정의합니다. 주요 예는 원시 데이터 또는 요약 통계의 완전한 제작입니다.
  • 오류 : 데이터 분석가는 데이터 입력, 데이터 조작, 분석,보고, 해석에 이르기까지 여러 단계의 데이터 분석에서 오류를 일으킬 수 있습니다.
  • 부적절한 행동 : 부적절한 행동 에는 여러 형태가 있습니다. 일반적으로, 그것은 진리를 찾는 것이 아니라 특정한 입장을 확인하려는 방향으로 요약 될 수 있습니다.

부적절한 행동의 일반적인 예는 다음과 같습니다.

  • 일련의 가능한 종속 변수를 조사하고 통계적으로 유의 한 변수 만보고
  • 중요한 가정 위반에 대해 언급하지 않음
  • 언급하지 않고 데이터 조작 및 이상치 제거 절차 수행, 특히 이러한 절차가 부적절하고 결과가 더 좋아 보이도록 선택된 경우
  • 실제로 탐색적인 확인 모델로 제시
  • 원하는 논증에 반하는 중요한 결과 생략
  • 결과가 더 나아 보이도록하기위한 통계 테스트 선택
  • 통계적으로 유의미한 (아마도 p = .04) 5 개 또는 10 개의 저전력 연구를 실행 한 후 다른 연구를 언급하지 않고 연구를보고

일반적으로 무능력 은 세 가지 형태의 문제가있는 행동과 관련이 있다는 가설을 세웁니다 . 좋은 과학을 수행하는 방법을 이해하지 못하지만 성공하기를 원하는 연구원은 결과를 잘못 표현할 더 큰 동기를 갖게 될 것이며 윤리적 데이터 분석의 원칙을 존중하지 않을 것입니다.

위의 차이점은 문제가있는 행동을 탐지하는 데 영향을 미칩니다. 예를 들어보고 된 결과 집합이 잘못되었음을 식별 할 수있는 경우에도 결과가 사기, 오류 또는 부적절한 행동으로 인한 것인지 여부를 확인해야합니다. 또한 다양한 형태의 부적절한 행동이 사기보다 훨씬 일반적이라고 가정합니다.

문제가있는 행동을 탐지하는 것과 관련하여 데이터 작업, 주제 작업 및 연구원 과의 작업 경험에서 비롯된 기술이라고 생각합니다.. 이러한 모든 경험은 데이터의 모양에 대한 기대치를 강화합니다. 따라서 기대치와의 주요 편차는 설명을 찾는 프로세스를 시작합니다. 연구원과의 경험은 다소 일반적인 부적절한 행동의 종류를 알려줍니다. 이로 인해 가설이 생성됩니다. 예를 들어, 저널 기사를 읽고 결과에 놀랐다면, 연구에 힘이 실렸고, 글의 성격에 따라 저자가 논점을 세울 것을 제안했다. 신뢰할 수 있습니다.

기타 자료


4

실제로 벤 포드의 법칙은 엄청나게 강력한 방법입니다. 이는 벤 포드의 첫 번째 자릿수 분포가 실제 또는 자연 세계에서 발생하는 모든 종류의 데이터 세트에 적용 가능하기 때문입니다.

벤 포드 법칙은 특정 상황에서만 사용할 수 있습니다. 데이터가 균일 한 로그 분배를 가져야한다고 말합니다. 엄밀히 말하면 이것은 정확합니다. 그러나 요구 사항을 훨씬 간단하고 관대하게 설명 할 수 있습니다. 데이터 세트 범위가 최소한 하나의 크기의 순서를 넘어 서면됩니다. 1에서 9까지 또는 10에서 99 또는 100에서 999 사이를 가정 해 봅시다. 두 자릿수를 넘으면 비즈니스에 있습니다. 그리고 벤 포드의 법칙은 상당히 도움이 될 것입니다.

Benford의 법칙의 장점은 데이터 더미 내에서 바늘에 대한 조사를 신속하게 좁힐 수 있다는 것입니다. 첫 번째 숫자의 주파수가 Benford 주파수와 크게 다른 예외를 찾습니다. 6 개가 2 개 있다는 것을 알게되면 Benford의 법칙을 사용하여 6 개에만 집중하십시오. 그러나 이제 처음 두 자리 (60, 61, 62, 63 등)로 가져갑니다. 이제 벤 포드가 제안한 것보다 훨씬 많은 63이 있다는 것을 알 수 있습니다 (벤 포드의 빈도를 계산하여 수행 할 수 있습니다 : log (1 + 1 / 63)는 0 %에 가까운 값을 제공합니다). 따라서 Benford를 처음 세 자리로 사용합니다. 당신이 발견했을 때 예상했던 것보다 너무 많은 632 (또는 Benford의 빈도 : log (1 + 1 / 632)를 계산하여)가 너무 많습니다. 모든 예외가 사기 인 것은 아닙니다. 그러나,

Marc Hauser가 조작 한 데이터 세트가 충분히 넓은 관련 범위를 가진 자연 구속되지 않은 데이터 인 경우 Benford의 법칙은 매우 유용한 진단 도구입니다. 필자는 가능성이 거의없는 패턴을 감지하는 다른 훌륭한 진단 도구가 있으며이를 Benford의 법칙과 결합하여 Marc Hauser 업무를 효과적으로 조사했을 수 있습니다 (Benford의 법칙에 언급 된 데이터 요구 사항을 고려하여).

이 짧은 프리젠 테이션에서 Benford의 법칙을 좀 더 설명합니다. http://www.slideshare.net/gaetanlion/benfords-law-4669483

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.