히스토그램과 PDF의 차이점은 무엇입니까?


18

연속 데이터의 분포를 눈에 띄게보고 싶다면 히스토그램과 pdf 중 어떤 것을 사용해야합니까?

히스토그램과 pdf의 공식적인 차이가 아닌 차이점은 무엇입니까?


이 질문이 데이터 (히스토그램으로 표시 될 수있는 데이터) 또는 이론적 구성 (예 : 확률 분포를 설명하는 pdf)과 관련이 있는지 명확히 해 주시겠습니까?
whuber

4
그러나 pdf는 어디에서 왔습니까? 정의상, pdf는 이론적 확률 분포를 설명합니다. edf (empirical distribution function)를 의미합니까?
whuber

답변:


22

더크 포인트를 명확히하려면 :

데이터가 정규 분포의 표본이라고 가정하십시오. 다음 플롯을 구성 할 수 있습니다.

대체 텍스트

빨간색 선은 경험 밀도 추정값이며 파란색 선은 기본 정규 분포의 이론적 인 pdf입니다. 히스토그램은 여기서 주파수가 아니라 밀도로 표현됩니다. 이것은 플로팅 목적으로 수행되며 일반적으로 히스토그램에서 주파수가 사용됩니다.

따라서 귀하의 질문에 대답하십시오 : 표본을 설명하려면 경험적 분포 (예 : 히스토그램)를 사용하고 가정 된 기본 분포를 설명하려면 pdf를 사용하십시오.

플롯은 R의 다음 코드에 의해 생성됩니다.

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)

주파수와 밀도의 차이는 무엇입니까?
Lakshay

2
@Lakshay 주파수는 카운트입니다. 합산 된 모든 빈도는 관측치 수와 같습니다. 밀도는 PDF (확률 밀도 함수)의 약자이며, 이는 특정 값을 가질 확률의 대용입니다. PDF 아래 영역은 1로 요약됩니다.
Joris Meys

13

히스토그램은 컴퓨터 전 연령 밀도의 추정치입니다. 밀도 추정치는 대안입니다.

오늘날 우리는 두 가지를 모두 사용하며 어떤 기본값을 사용해야하는지에 대한 풍부한 문헌이 있습니다.

반면에 pdf는 주어진 분포에 대한 닫힌 형태의 표현입니다 . 이는 추정 밀도 또는 히스토그램으로 데이터 세트를 설명하는 것과 다릅니다 .


1
@Harpreet @Dirk가 닫힌 형식을 표시 했으므로 해당 매개 변수 (예 : 가우시안의 경우 및 만 지정하므로 PDF의 모양을 추정하지 않습니다 . 반드시 데이터에 "적합"할 필요는 없습니다. 현재 몇 가지 종류의 비모수 밀도 추정값이 있습니다. 여기에는 현재 데이터 만 사용하고 일부 커널 사양이나 창 범위 등이 있습니다. 예를 들어, R 기능에 대한 온라인 도움말을 참조하십시오 . μσ2density
chl

@Harpreet이 온라인 에디터를 통해 게시물을 편집으로, 단지 마크 다운 구문입니다 *ab*부여합니다 AB (기울임) **ab**제공 AB를 (굵게) $\sqrt{2}$=2
CHL

6

여기에는 어렵고 빠른 규칙이 없습니다. 인구 밀도를 알고 있다면 PDF가 더 좋습니다. 반면에, 우리는 종종 샘플을 다루며 히스토그램은 추정 밀도가 포함하는 일부 정보를 전달할 수 있습니다. 예를 들어 Andrew Gelman은 다음과 같이 지적합니다.

히스토그램의 변형

히스토그램의 주요 이점은 원시 데이터의 플롯으로 자체 오류 평가의 시드를 포함한다는 것입니다. 또는 달리 표현하면 약간 부드러운 히스토그램의 들쭉날쭉 한 부분은 샘플링 변동성을 시각적으로 표시하여 유용한 서비스를 수행합니다. 그렇기 때문에 제 책과 출판 된 기사에서 히스토그램을 보면 항상 많은 쓰레기통을 사용하는 것입니다. 또한 사람들이 때때로 1 차원 분포를 표시하는 데 사용하는 커널 밀도 추정치는 거의 좋아하지 않습니다. 오히려 히스토그램을보고 데이터가 어디에 있는지 알고 싶습니다.


3
Gelman이 왜 빈 폭이 작은 히스토그램의 사용을 옹호하는지 이해하지 못합니다. 왜 중첩 된 커널 밀도 추정치와 함께 스트립 차트 플롯이나 원시 데이터를 사용하지 않는가?
chl

2
@chl : 물론 샘플링 변동성을 이해하기위한 다른 좋은 시각화 방법이 있습니다. 그러나 여기서 논의중인 히스토그램 v. pdf의 좁은 비교에서, 그의 요점은 잘 만들어진 것 같습니다.
ars

1
거기에서 논의 된 논문들과 마찬가지로 그것은 좋은 연결입니다. 그러나이 접근법은 시뮬레이션에 적용 되는가?이 경우 실제로 밀도를 추정하려고 하는가?
David LeBauer

1

상대 주파수 히스토그램 ( 이산 )

  • 'y'축은 정규화 된 카운트입니다
  • 'y'축은 특정 구간 / 범위에 대한 이산 확률입니다
  • 정규화 된 카운트 합계 1

밀도 히스토그램 ( 이산 )

  • 'y'축은 밀도 값입니다 ( '정규화 된 수'를 '빈 너비'로 나눈 값)
  • 막대 면적은 1로 합산

확률 밀도 함수 PDF ( 연속 )

  • 히스토그램 저장소가 분리되어 있기 때문에 PDF는 히스토그램의 연속 버전입니다.
  • 곡선 아래의 총 면적은 1에 통합됩니다.

이 참조는 도움이되었습니다. : http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

위 사이트에서 Continuous_probability_distribution

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.