균일 한 대 비 균일 빈을 가진 히스토그램

이 질문 은 균일 한 히스토그램과 비 균일 히스토그램의 기본적인 차이점을 설명합니다. 그리고이 질문 은 어떤 의미에서 히스토그램이 데이터 샘플이 추출 된 분포를 나타내는 정도를 최적화하는 균일 히스토그램의 빈 수를 선택하는 경험 법칙에 대해 설명합니다.

균일하지 않은 히스토그램과 균일하지 않은 히스토그램에 대해 같은 종류의 "최적"토론을 찾을 수 없습니다. 멀리있는 특이 치를 가진 군집 된 비모수 분포가 있으므로 비 균일 히스토그램이 직관적으로 더 적합합니다. 그러나 다음 두 가지 질문에 대한보다 정확한 분석을 원합니다.

균일 빈 히스토그램이 비 균일 빈보다 더 나은 경우는 언제입니까?
비 균일 히스토그램에 적합한 빈은 무엇입니까?

비 균일 히스토그램의 경우, 나는 우리 가 알 수없는 분포에서 샘플을 가져 와서 결과 값을 정렬 한 다음 각 빈이 갖도록 빈 으로 분리 하는 가장 간단한 경우로 간주됩니다. $n$ $n$ $k$ $\frac{k}{n}$ $n \equiv c k$ $c$ $\max$ $i$ $\min$ $i+1$

— 앨런 튜링
소스

대답 할 정보가 충분하지 않습니다 (2). 불균일에 대한 조건은 무엇입니까? 원하는 쓰레기통을 선택할 수 있습니까, 아니면 제한이 있습니까? 무엇을 최적화 하시겠습니까? 예를 들어 와 사이의 최소 평균 적분 제곱 오차를 원 하십니까? 또는 다른 것?

f

$f$

\hat{f}

$\hat{f}$

— Glen_b-복지 주 모니카

@Glen_b 나는 비 균일 빈 경우에서 고려하고있는 히스토그램의 종류를 좀 더 자세하게 설명합니다.

— Alan Turing

편집 내용을 확인하십시오. "cn"이 아닌 "n = cm"을 의미 했습니까? 또한 나중에 오타가 있습니다.

— Glen_b-복지 주 모니카

당신은 같은 것을 전달하려고 이 ?

— Glen_b-복지 주 모니카

또한 그와 일반적인 히스토그램 사이의 절충에 대한 이 토론 을 보십시오

— Glen_b -Reinstate Monica

균일 빈 히스토그램이 비 균일 빈보다 더 나은 경우는 언제입니까?

이를 위해서는 우리가 최적화하려는 것을 식별해야합니다. 많은 사람들이 평균 적분 평균 제곱 오차를 최적화하려고 시도하지만 많은 경우에 히스토그램을 수행하는 요점을 다소 놓치고 있다고 생각합니다. 그것은 종종 (내 눈에) '과도하게'; 히스토그램과 같은 탐색 도구의 경우 거칠기 자체가 눈으로 "부드러워 야"하는 정도를 알 수 있기 때문에 더 거칠기를 더 견딜 수 있습니다. 나는 그런 규칙에서 보통 빈의 수를 두 배로 늘리는 경향이 있으며 때로는 더 많은 양이 있습니다. 나는 Andrew Gelman 에 동의하는 경향 이있다. 실제로 내 관심이 실제로 좋은 목표를 얻고 있다면 어쨌든 히스토그램을 고려해서는 안됩니다.

따라서 우리는 기준이 필요합니다.

같지 않은 영역 히스토그램의 몇 가지 옵션에 대해 설명하겠습니다.

밀도가 낮은 영역에서 더 평활화 (더 작고 넓은 빈)하고, "균등 영역"또는 "동일 수"히스토그램과 같이 밀도가 더 높은 빈이 좁은 일부 접근 방식이 있습니다. 편집 한 질문은 같은 수의 가능성을 고려한 것 같습니다.

histogramR lattice패키지 의 함수는 대략 같은 면적의 막대를 생성 할 수 있습니다.

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

같은 너비와 같은 면적의 비교

네 번째 뿌리를 가져 가면 가장 왼쪽 빈의 오른쪽으로의 딥이 더 명확 해집니다. 너비가 같은 쓰레기통을 사용하면 15-20 배 많은 쓰레기통을 사용하지 않으면 오른쪽 꼬리가 끔찍해 보입니다.

여기에는 샘플 수량 을 사용하여 나누기를 찾는 R 코드 가있는 등가 히스토그램이 있습니다 .

예를 들어, 위와 동일한 데이터에 각각 6 개의 관측소 (각각 8 개의 관측치가 있음)가 있습니다.

등가 히스토그램

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

이 질문 CV 포인트 덴비 및 Mallows 의해 종이 버전은 여기에서 다운로드 동일한 폭과 동일한 빈 영역 빈들 절충을 설명한다.

또한 어느 정도까지의 질문을 다룹니다.

부분적으로 일정한 Poisson 프로세스에서 중단을 식별하는 것으로 문제를 고려할 수 있습니다. 그것은 이런 식 으로 작동합니다 . 또한 포아송 카운트에 대한 군집화 / 분류 유형 알고리즘을 살펴볼 수있는 가능성도 있습니다. 클러스터링은 2D 히스토그램 ( 실제로 이미지 )에서 사용되어 비교적 균일 한 영역을 식별합니다.

우리가 같은 수의 히스토그램을 가지고 있고 최적화 할 기준이 있다면 빈 당 카운트의 범위를 시도하고 어떤 식 으로든 기준을 평가할 수 있습니다. 여기에 언급 된 Wand 논문 [ paper 또는 working paper pdf ]과 참고 문헌 (예 : Sheather et al 논문)은 AIMSE를 최적화하기위한 커널 스무딩 아이디어를 기반으로 한 "플러그인"빈 너비 추정을 요약합니다. 광범위하게 말하면, 이런 종류의 접근 방식은이 상황에 적응할 수 있어야한다고 생각합니다.

— Glen_b-복귀 모니카
소스