연속 데이터의 분포를 눈에 띄게보고 싶다면 히스토그램과 pdf 중 어떤 것을 사용해야합니까?
히스토그램과 pdf의 공식적인 차이가 아닌 차이점은 무엇입니까?
연속 데이터의 분포를 눈에 띄게보고 싶다면 히스토그램과 pdf 중 어떤 것을 사용해야합니까?
히스토그램과 pdf의 공식적인 차이가 아닌 차이점은 무엇입니까?
답변:
더크 포인트를 명확히하려면 :
데이터가 정규 분포의 표본이라고 가정하십시오. 다음 플롯을 구성 할 수 있습니다.
빨간색 선은 경험 밀도 추정값이며 파란색 선은 기본 정규 분포의 이론적 인 pdf입니다. 히스토그램은 여기서 주파수가 아니라 밀도로 표현됩니다. 이것은 플로팅 목적으로 수행되며 일반적으로 히스토그램에서 주파수가 사용됩니다.
따라서 귀하의 질문에 대답하십시오 : 표본을 설명하려면 경험적 분포 (예 : 히스토그램)를 사용하고 가정 된 기본 분포를 설명하려면 pdf를 사용하십시오.
플롯은 R의 다음 코드에 의해 생성됩니다.
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
히스토그램은 컴퓨터 전 연령 밀도의 추정치입니다. 밀도 추정치는 대안입니다.
오늘날 우리는 두 가지를 모두 사용하며 어떤 기본값을 사용해야하는지에 대한 풍부한 문헌이 있습니다.
반면에 pdf는 주어진 분포에 대한 닫힌 형태의 표현입니다 . 이는 추정 밀도 또는 히스토그램으로 데이터 세트를 설명하는 것과 다릅니다 .
density
*ab*
부여합니다 AB (기울임) **ab**
제공 AB를 (굵게) $\sqrt{2}$
=
여기에는 어렵고 빠른 규칙이 없습니다. 인구 밀도를 알고 있다면 PDF가 더 좋습니다. 반면에, 우리는 종종 샘플을 다루며 히스토그램은 추정 밀도가 포함하는 일부 정보를 전달할 수 있습니다. 예를 들어 Andrew Gelman은 다음과 같이 지적합니다.
히스토그램의 주요 이점은 원시 데이터의 플롯으로 자체 오류 평가의 시드를 포함한다는 것입니다. 또는 달리 표현하면 약간 부드러운 히스토그램의 들쭉날쭉 한 부분은 샘플링 변동성을 시각적으로 표시하여 유용한 서비스를 수행합니다. 그렇기 때문에 제 책과 출판 된 기사에서 히스토그램을 보면 항상 많은 쓰레기통을 사용하는 것입니다. 또한 사람들이 때때로 1 차원 분포를 표시하는 데 사용하는 커널 밀도 추정치는 거의 좋아하지 않습니다. 오히려 히스토그램을보고 데이터가 어디에 있는지 알고 싶습니다.
상대 주파수 히스토그램 ( 이산 )
밀도 히스토그램 ( 이산 )
확률 밀도 함수 PDF ( 연속 )
이 참조는 도움이되었습니다. : http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
위 사이트에서 Continuous_probability_distribution
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html