균일 빈 히스토그램이 비 균일 빈보다 더 나은 경우는 언제입니까?
이를 위해서는 우리가 최적화하려는 것을 식별해야합니다. 많은 사람들이 평균 적분 평균 제곱 오차를 최적화하려고 시도하지만 많은 경우에 히스토그램을 수행하는 요점을 다소 놓치고 있다고 생각합니다. 그것은 종종 (내 눈에) '과도하게'; 히스토그램과 같은 탐색 도구의 경우 거칠기 자체가 눈으로 "부드러워 야"하는 정도를 알 수 있기 때문에 더 거칠기를 더 견딜 수 있습니다. 나는 그런 규칙에서 보통 빈의 수를 두 배로 늘리는 경향이 있으며 때로는 더 많은 양이 있습니다. 나는 Andrew Gelman 에 동의하는 경향 이있다. 실제로 내 관심이 실제로 좋은 목표를 얻고 있다면 어쨌든 히스토그램을 고려해서는 안됩니다.
따라서 우리는 기준이 필요합니다.
같지 않은 영역 히스토그램의 몇 가지 옵션에 대해 설명하겠습니다.
밀도가 낮은 영역에서 더 평활화 (더 작고 넓은 빈)하고, "균등 영역"또는 "동일 수"히스토그램과 같이 밀도가 더 높은 빈이 좁은 일부 접근 방식이 있습니다. 편집 한 질문은 같은 수의 가능성을 고려한 것 같습니다.
histogram
R lattice
패키지 의 함수는 대략 같은 면적의 막대를 생성 할 수 있습니다.
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
네 번째 뿌리를 가져 가면 가장 왼쪽 빈의 오른쪽으로의 딥이 더 명확 해집니다. 너비가 같은 쓰레기통을 사용하면 15-20 배 많은 쓰레기통을 사용하지 않으면 오른쪽 꼬리가 끔찍해 보입니다.
여기에는 샘플 수량 을 사용하여 나누기를 찾는 R 코드 가있는 등가 히스토그램이 있습니다 .
예를 들어, 위와 동일한 데이터에 각각 6 개의 관측소 (각각 8 개의 관측치가 있음)가 있습니다.
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
이 질문 CV 포인트 덴비 및 Mallows 의해 종이 버전은 여기에서 다운로드 동일한 폭과 동일한 빈 영역 빈들 절충을 설명한다.
또한 어느 정도까지의 질문을 다룹니다.
부분적으로 일정한 Poisson 프로세스에서 중단을 식별하는 것으로 문제를 고려할 수 있습니다. 그것은 이런 식 으로 작동합니다 . 또한 포아송 카운트에 대한 군집화 / 분류 유형 알고리즘을 살펴볼 수있는 가능성도 있습니다. 클러스터링은 2D 히스토그램 ( 실제로 이미지 )에서 사용되어 비교적 균일 한 영역을 식별합니다.
-
우리가 같은 수의 히스토그램을 가지고 있고 최적화 할 기준이 있다면 빈 당 카운트의 범위를 시도하고 어떤 식 으로든 기준을 평가할 수 있습니다. 여기에 언급 된 Wand 논문 [ paper 또는 working paper pdf ]과 참고 문헌 (예 : Sheather et al 논문)은 AIMSE를 최적화하기위한 커널 스무딩 아이디어를 기반으로 한 "플러그인"빈 너비 추정을 요약합니다. 광범위하게 말하면, 이런 종류의 접근 방식은이 상황에 적응할 수 있어야한다고 생각합니다.