실제로 벤 포드의 법칙은 엄청나게 강력한 방법입니다. 이는 벤 포드의 첫 번째 자릿수 분포가 실제 또는 자연 세계에서 발생하는 모든 종류의 데이터 세트에 적용 가능하기 때문입니다.
벤 포드 법칙은 특정 상황에서만 사용할 수 있습니다. 데이터가 균일 한 로그 분배를 가져야한다고 말합니다. 엄밀히 말하면 이것은 정확합니다. 그러나 요구 사항을 훨씬 간단하고 관대하게 설명 할 수 있습니다. 데이터 세트 범위가 최소한 하나의 크기의 순서를 넘어 서면됩니다. 1에서 9까지 또는 10에서 99 또는 100에서 999 사이를 가정 해 봅시다. 두 자릿수를 넘으면 비즈니스에 있습니다. 그리고 벤 포드의 법칙은 상당히 도움이 될 것입니다.
Benford의 법칙의 장점은 데이터 더미 내에서 바늘에 대한 조사를 신속하게 좁힐 수 있다는 것입니다. 첫 번째 숫자의 주파수가 Benford 주파수와 크게 다른 예외를 찾습니다. 6 개가 2 개 있다는 것을 알게되면 Benford의 법칙을 사용하여 6 개에만 집중하십시오. 그러나 이제 처음 두 자리 (60, 61, 62, 63 등)로 가져갑니다. 이제 벤 포드가 제안한 것보다 훨씬 많은 63이 있다는 것을 알 수 있습니다 (벤 포드의 빈도를 계산하여 수행 할 수 있습니다 : log (1 + 1 / 63)는 0 %에 가까운 값을 제공합니다). 따라서 Benford를 처음 세 자리로 사용합니다. 당신이 발견했을 때 예상했던 것보다 너무 많은 632 (또는 Benford의 빈도 : log (1 + 1 / 632)를 계산하여)가 너무 많습니다. 모든 예외가 사기 인 것은 아닙니다. 그러나,
Marc Hauser가 조작 한 데이터 세트가 충분히 넓은 관련 범위를 가진 자연 구속되지 않은 데이터 인 경우 Benford의 법칙은 매우 유용한 진단 도구입니다. 필자는 가능성이 거의없는 패턴을 감지하는 다른 훌륭한 진단 도구가 있으며이를 Benford의 법칙과 결합하여 Marc Hauser 업무를 효과적으로 조사했을 수 있습니다 (Benford의 법칙에 언급 된 데이터 요구 사항을 고려하여).
이 짧은 프리젠 테이션에서 Benford의 법칙을 좀 더 설명합니다.
http://www.slideshare.net/gaetanlion/benfords-law-4669483