히스토그램의 세부 사항이 노이즈가 아니라 흥미 롭거나 중요한 미세 구조가 될 것으로 의심 될 때마다 가능한 모든 값에 대해 많은 수의 빈을 갖는 좋은 사례가 있습니다.
이것은이 질문에 대한 정확한 동기 부여와 직접적으로 관련이 없으며, 최적의 빈 수에 대한 자동 규칙을 원하지만 전체적으로 질문과 관련이 있습니다.
우리는 즉시 예를 들어 보자. 인구 통계학에서보고 된 연령의 반올림은 일반적이지만 특히 문해력이 제한된 국가에서만은 아닙니다. 일어날 수있는 일은 많은 사람들이 정확한 생년월일을 모르거나 나이를 과소 평가하거나 과장해야 할 사회적 또는 개인적 이유가 있다는 것입니다. 군대의 역사는 군대에 복무하거나 피하기 위해 자신의 나이에 대해 거짓말을하는 사람들로 가득합니다. 실제로 많은 독자들은 인구 조사에 대해 거짓말을하지 않더라도 나이에 대해 매우 냉담하거나 그렇지 않은 사람을 알 것입니다. 순 결과는 다양하지만 이미 암시 된 것처럼 일반적으로 반올림합니다. 예를 들어 0과 5로 끝나는 연령은 1 년 이하의 연령보다 훨씬 일반적입니다.
비슷한 숫자 선호도 현상은 매우 다른 문제에서도 일반적입니다. 일부 구식 측정 방법을 사용하면보고 된 측정의 마지막 숫자를 눈금으로 표시된 보간을 통해 눈으로 측정해야합니다. 이것은 수은 온도계를 이용한 기상학의 오랜 표준이었습니다. 총체적으로보고 된 숫자 중 일부는 다른 숫자보다 흔하며, 우리 중 다수는 개별적으로 다른 숫자보다는 일부 숫자를 선호하는 개인 패턴 인 서명을 가지고 있습니다. 여기에서 일반적인 기준 분포는 균일합니다. 즉, 가능한 측정 범위가 측정의 "단위"보다 몇 배 더 큰 경우, 최종 숫자는 동일한 주파수에서 발생할 것으로 예상됩니다. 따라서보고 된 그늘 온도가 (예) 50의 범위를 커버 할 수 있다면∘C 마지막 10 자리, .0, .1의 분수, ⋯, .8, .9는 각각 0.1 확률로 발생해야합니다. 이 근사치의 품질은 더 제한된 범위에서도 양호해야합니다.
또한보고 된 데이터의 마지막 숫자를 보는 것은 조작 된 데이터를 확인하는 간단하고 좋은 방법입니다. Benford의 법칙에 호소하는 현재 유행하는 첫 번째 숫자보다 훨씬 이해하기 쉽고 문제가 적은 방법입니다.
히스토그램의 결과가 명확 해졌습니다. 스파이크와 같은 프리젠 테이션은 이러한 종류의 훌륭한 구조를 보여 주거나보다 일반적으로 확인하는 데 도움이됩니다. 당연히, 관심있는 것이 없다면, 그래프는 거의 쓸모가 없습니다.
한 예는 1960 년 가나 인구 조사에서 나이가 쌓이는 것을 보여줍니다. http://www.stata.com/manuals13/rspikeplot.pdf
최종 자릿수 분포에 대한 좋은 검토가있었습니다.
Preece, DA 1981. 데이터의 최종 자릿수 분포. 통계 학자 30 : 31-60.
용어에 대한 참고 사항 : 일부 사람들은 변수의 고유 한 값에 대해 더 잘 이야기 할 때 변수의 고유 한 값에 대해 씁니다. 사전 및 사용 안내서는 여전히 "고유 한"은 한 번만 발생한다는 의미입니다. 따라서 인구의 뚜렷한보고 연령은 수, 0, 1, 2 등이 될 수 있지만 그 연령의 대부분은 한 사람에게 고유하지 않을 것입니다.