히스토그램의 간격 수에 대한 상한이 있습니까?


10

데이터 세트의 히스토그램에 대해 적절한 수의 구간 (빈) 을 선택하는 방법을 설명하는 여러 기사와 발췌문을 읽었 지만 포인트 수를 기준으로 최대 간격 이 어려운지 궁금합니다 . 데이터 세트 또는 다른 기준.

배경 : 내가 묻는 이유는 연구 논문의 절차에 따라 소프트웨어를 작성하려고하기 때문입니다. 절차의 한 단계는 데이터 세트에서 여러 히스토그램을 생성 한 다음 특성 기능 (종이 저자가 정의한)에 따라 최적의 해상도를 선택하는 것입니다. 내 문제는 저자가 테스트 간격의 상한을 언급하지 않는다는 것입니다. (분석 할 수백 개의 데이터 집합이 있으며 각 저장소마다 다른 "최적"수의 구간을 가질 수 있습니다. 또한 최적 의 구간 수를 선택 하는 것이 중요 하므로 수동으로 결과를보고 좋은 것을 선택하는 것은 중요 하지 않습니다. 작업.)

최대 간격 수를 데이터 세트의 포인트 수로 설정하는 것이 좋은 지침이됩니까, 아니면 통계에 일반적으로 사용되는 다른 기준이 있습니까?


같은 크기의 빈 (즉, 같은 간격을 가진 빈)을 의미합니까?
아담 Ryczkowski

대답은 구현하려는 알고리즘에 달려 있다고 생각합니다. 해당 연구 논문에 대한 링크를 제공하지 않으면 질문이 불완전하다고 생각합니다.
아담 Ryczkowski

점의 수는 이론 상으로는 최대치이지만 거의 히스토그램이 아니며 홀수 형식의 스트립 플롯 또는 러그 플롯입니다.
Peter Flom

1
실제로, 포인트의 수는 실제로 최대치가 아닙니다. 죄송합니다. 커피가 충분하지 않았습니다! 빈의 일부는 0이 될 것입니다. 예를 들어 (우스꽝스럽게 간단한 예를 들어) 1.02 2.21 및 5.92의 3 점이 있다고 가정하십시오. 실제로 최대 개수의 용지함을 원한다면 분명히 3보다 큽니다. 아마도 6 : 1-2, 2-3, 3-4, 4-5 및 5-6 (이중 비닝을 피하기 위해 적절한 개방 및 폐쇄 간격으로)
Peter Flom

1
@whuber : 값은 중심으로부터 객체 윤곽선의 거리 측정 세트이며 [0, 1]로 정규화됩니다. 종이는 이러한 거리를 비닝을 사용하여2제이 쓰레기통, 최적을 찾는 제이(비닝으로부터의) 양자화 에러의 합과 히스토그램의 pdf를 최소화함으로써. 내가 이해 한대로
Wayne

답변:


6

실제로는 상한이 크지 않지만 대부분의 경우 자신의 저장소에서 모든 고유 한 관찰을 얻으면 미세한 저장소는 훨씬 더 많은 정보를 전달하지 않고 위치를 더 정확하게 찾을 수 있습니다. 예를 들어 다음을 비교하십시오.

30 칸의 히스토그램
100 칸의 히스토그램

매우 특별한 상황을 제외하고, 두 번째 줄거리에는 실용적이지 않을 것이며 첫 번째 줄에는 그다지 많지 않을 것입니다. 데이터가 연속적이라면, 이것은 유용한 빈 수를 넘어서는 방법 일 것입니다.

따라서 대부분의 상황에서 그것은 적어도 실제 상한선처럼 보입니다.

( 독특한 관찰 당 하나보다 많은 쓰레기통에 이점 있다면 , 이런 종류의 정보를 얻기 위해 rugplot 또는 지터가있는 스트립 차트를 수행해야 할 것입니다)-이러한 막대 그래프의 여백에서 수행 된 것과 같은 것입니다.

지터가있는 히스토그램 룰 로트
스트립 차트가있는 히스토그램

(이 히스토그램은 끝 부분 근처 에서이 답변 에서 가져옵니다 )


5

히스토그램의 세부 사항이 노이즈가 아니라 흥미 롭거나 중요한 미세 구조가 될 것으로 의심 될 때마다 가능한 모든 값에 대해 많은 수의 빈을 갖는 좋은 사례가 있습니다.

이것은이 질문에 대한 정확한 동기 부여와 직접적으로 관련이 없으며, 최적의 빈 수에 대한 자동 규칙을 원하지만 전체적으로 질문과 관련이 있습니다.

우리는 즉시 예를 들어 보자. 인구 통계학에서보고 된 연령의 반올림은 일반적이지만 특히 문해력이 제한된 국가에서만은 아닙니다. 일어날 수있는 일은 많은 사람들이 정확한 생년월일을 모르거나 나이를 과소 평가하거나 과장해야 할 사회적 또는 개인적 이유가 있다는 것입니다. 군대의 역사는 군대에 복무하거나 피하기 위해 자신의 나이에 대해 거짓말을하는 사람들로 가득합니다. 실제로 많은 독자들은 인구 조사에 대해 거짓말을하지 않더라도 나이에 대해 매우 냉담하거나 그렇지 않은 사람을 알 것입니다. 순 결과는 다양하지만 이미 암시 된 것처럼 일반적으로 반올림합니다. 예를 들어 0과 5로 끝나는 연령은 1 년 이하의 연령보다 훨씬 일반적입니다.

비슷한 숫자 선호도 현상은 매우 다른 문제에서도 일반적입니다. 일부 구식 측정 방법을 사용하면보고 된 측정의 마지막 숫자를 눈금으로 표시된 보간을 통해 눈으로 측정해야합니다. 이것은 수은 온도계를 이용한 기상학의 오랜 표준이었습니다. 총체적으로보고 된 숫자 중 일부는 다른 숫자보다 흔하며, 우리 중 다수는 개별적으로 다른 숫자보다는 일부 숫자를 선호하는 개인 패턴 인 서명을 가지고 있습니다. 여기에서 일반적인 기준 분포는 균일합니다. 즉, 가능한 측정 범위가 측정의 "단위"보다 몇 배 더 큰 경우, 최종 숫자는 동일한 주파수에서 발생할 것으로 예상됩니다. 따라서보고 된 그늘 온도가 (예) 50의 범위를 커버 할 수 있다면C 마지막 10 자리, .0, .1의 분수, , .8, .9는 각각 0.1 확률로 발생해야합니다. 이 근사치의 품질은 더 제한된 범위에서도 양호해야합니다.

또한보고 된 데이터의 마지막 숫자를 보는 것은 조작 된 데이터를 확인하는 간단하고 좋은 방법입니다. Benford의 법칙에 호소하는 현재 유행하는 첫 번째 숫자보다 훨씬 이해하기 쉽고 문제가 적은 방법입니다.

히스토그램의 결과가 명확 해졌습니다. 스파이크와 같은 프리젠 테이션은 이러한 종류의 훌륭한 구조를 보여 주거나보다 일반적으로 확인하는 데 도움이됩니다. 당연히, 관심있는 것이 없다면, 그래프는 거의 쓸모가 없습니다.

한 예는 1960 년 가나 인구 조사에서 나이가 쌓이는 것을 보여줍니다. http://www.stata.com/manuals13/rspikeplot.pdf

최종 자릿수 분포에 대한 좋은 검토가있었습니다.

Preece, DA 1981. 데이터의 최종 자릿수 분포. 통계 학자 30 : 31-60.

용어에 대한 참고 사항 : 일부 사람들은 변수의 고유 한 값에 대해 더 잘 이야기 할 때 변수의 고유 한 값에 대해 씁니다. 사전 및 사용 안내서는 여전히 "고유 한"은 한 번만 발생한다는 의미입니다. 따라서 인구의 뚜렷한보고 연령은 수, 0, 1, 2 등이 될 수 있지만 그 연령의 대부분은 한 사람에게 고유하지 않을 것입니다.


4

히스토그램의 빈 수에는 최대 값이 없습니다. 플롯되는 변수가 연속적이면 무한한 범주의 범주에 대해 인수를 작성할 수 있습니다 (그리고 히스토그램은 기본적으로 러그 플롯이됩니다).

데이터 세트의 포인트 수가 적절한 상한이 아닙니다. 두 개의 값 (1과 1000)을 포함하는 데이터 세트를 고려하십시오. 두 개의 구간을 갖는 것은 적합하지 않습니다.

상한을 결정하는 두 가지 실제 방법은 다음과 같습니다. a) 데이터의 기본 반올림 결정. 예를 들어, 데이터가 정수이면 정수 너비의 구간을 갖는 것이 좋습니다. b) 최대 가시 해상도 (예 : 플로팅에 사용할 수있는 수평 치수의 픽셀 수)를 봅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.