"확률 밀도 함수 아래의 총 면적은 1"입니다.


20

개념적으로 "PDF 아래의 총 면적은 1"이라는 구절의 의미를 이해합니다. 결과가 전체 가능성 구간에있을 확률이 100 %임을 의미해야합니다.

그러나 나는 "지오메트리"관점에서 그것을 실제로 이해할 수 없습니다. 예를 들어 PDF에서 x 축이 길이를 나타내는 경우 x가 km이 아닌 mm로 측정 된 경우 곡선 아래의 총 면적이 커지지 않습니까?

함수가 직선으로 평평해진 경우 곡선 아래의 영역이 어떻게 보이는지 항상 그림으로 그려 봅니다. 해당 줄의 높이 (y 축 위치)가 PDF에 대해 동일합니까, 아니면 함수가 정의 된 x 축 간격에 따라 값이 있습니까?


엑스 축의 스케일을 km에서 mm으로 변경할 수 있지만 그 정도는 어떻습니까? 엑스 축의 단위에 대해 정확히 동일한 그림과 6 개의 영점이 더 있습니다. 원하는 경우 확대 또는 축소 할 수 있지만 사진이 변경되지는 않습니다. 다음 PDF 곡선 (균일 분포를 의미한다)를 수평 직선 인 경우 한편, 상기에 위치 와이 축은의 단위에 의존하지 않는 엑스 축 만 온 구간의 길이 엑스 축. 그것이 당신에게 얼마나 도움이되는지 확실하지 않지만, 확대 및 축소라는 아이디어는 이해하기 쉽습니다.
Richard Hardy

2
사실 인 것 같습니다. 그러나 그것은 수평 방향으로 1000만큼 확대되고 동시에 수직 방향으로 비례 적으로 축소되는 (이상하게 이상한) 돋보기를 사용하는 것입니다. 그러나 스케일 만 변경해도 그림의 본질은 변하지 않습니다.
Richard Hardy

2
이 질문은 (다른 방법으로) 요청하고 stats.stackexchange.com/questions/4220/… 에서 답변 한 것과 같은 것 같습니다 .
whuber

1
@amoeba, 그렇습니다. 많은 사람들이 그 노력을 인정하여 더 긴 답변에 투표해야한다고 생각할 수도 있지만 Aksakal은 내 질문에 훨씬 명확하고 간결하게 대답했습니다. 공평하게도 나는 Silverfish의 답변도 도움이되었고 가까운 시일 내에 나올 것이라고 말했습니다.
TheChymera

2
@amoeba 완전히 다른 대답의 방향은 PDF가 CDF의 파생물이라는 사실에 초점을 맞출 수 있었기 때문에 PDF 아래의 영역은 사용 된 단위에 관계없이 CDF의 제한적인 값일뿐입니다. 나는 이것에 대한 짧은 섹션을 포함 시키려고 유혹했지만 내 대답이 이미 충분히 길 었다고 생각했다. (그리고 OP의 문제의 핵심은 CDF 접근이 오히려 치마가되는 단위 문제인 것처럼 보였다).
Silverfish

답변:


14

확률 밀도 함수는 x 축 측정 단위당 백분율로 측정됩니다. 주어진 지점 엑스0 PDF가 1000 이라고 가정 해 봅시다 . 이것은 x 0 < x < x 0 의 확률을 의미합니다엑스0<엑스<엑스0+엑스1000엑스 여기서 엑스 는 미터 단위입니다. 단위를 센티미터로 변경하면 같은 구간에 대해 확률이 변경되지 않아야하지만 동일한 구간에는 미터보다 100 센티미터가 더 많이 있으므로1000엑스=에프'(엑스0')100엑스' 이고 풀면에프'(엑스0')=에프(엑스0)100 . 미터당 센티미터 당 100 배 확률 단위 (백분율)가 적습니다.


46

수직 축이 확률 밀도 로 측정된다는 것을 이해하는 데 도움이 될 수 있습니다 . 따라서 가로 축을 km 단위로 측정하면 세로 축은 "km 당"확률 밀도로 측정됩니다. 너비가 5 "km"이고 높이가 0.1 "km"( "km - 1 " 로 쓰는 것을 선호 할 수 있음) 인 그리드에 직사각형 요소를 그립니다 . 이 직사각형의 면적은 5km x 0.1km - 1 = 0.5입니다. 단위가 취소되고 우리는 절반의 확률로 남습니다.11

가로 단위를 "미터"로 변경 한 경우 세로 단위를 "미터당"으로 변경해야합니다. 직사각형의 너비는 5000 미터가되며 미터당 0.0001의 밀도 (높이)를 갖습니다. 여전히 절반의 확률로 남아 있습니다. 이 두 그래프가 페이지에서 서로 비교되는 것이 이상하게 보일 수 있습니다 (하나가 다른 것보다 훨씬 넓고 짧을 필요는 없습니까?). 물리적으로 그림을 그릴 때 무엇이든 사용할 수 있습니다 당신이 좋아하는 규모. 약간의 이상한 점이 얼마나 필요한지 아래를보십시오.

확률 밀도 곡선으로 이동하기 전에 히스토그램 을 고려하는 것이 도움이 될 수 있습니다 . 여러면에서 그것들은 유사합니다. 히스토그램의 세로 축은 x 밀도 단위의 주파수 밀도엑스 이고 곱셈시 가로 및 세로 단위가 취소되므로 영역은 다시 주파수를 나타냅니다. PDF 곡선은 총 빈도가 1 인 히스토그램의 연속 버전입니다.

더 가까운 유추는 상대 주파수 히스토그램입니다 . 우리는 이러한 히스토그램이 "정규화"되었으므로 영역 요소는 이제 원시 주파수가 아닌 원래 데이터 세트의 비율 을 나타내며 모든 막대의 총 면적은 하나입니다. 높이는 이제 상대 주파수 밀도 [ 단위당]엑스 입니다. 상대 주파수 히스토그램에 x를 따라 움직이는 막대가있는 경우엑스20km에서 25km까지 (바의 너비는 5km) 상대 주파수 밀도는 1km 당 0.1이며,이 막대에는 0.5 비율의 데이터가 포함됩니다. 이는 데이터 세트에서 임의로 선택한 항목이 해당 막대에 50 % 확률로 존재한다는 아이디어와 정확히 일치합니다. 단위 변경의 영향에 대한 이전의 논증은 여전히 ​​적용됩니다 : 20 km ~ 25 km bar에있는 데이터의 비율을이 두 플롯의 20,000 m ~ 25,000 m bar에 비교하십시오. 두 막대 모두에서 모든 막대의 면적이 하나임을 합산하여 산술적으로 확인할 수도 있습니다.

다른 단위의 상대 주파수 히스토그램

PDF가 "히스토그램의 일종의 연속 버전"이라는 주장은 무엇을 의미합니까? 간격 [ x , x + δ x ]의 값을 따라 확률 밀도 곡선 아래에서 작은 스트립을 가져 와서 스트립은 δ x 너비이고 곡선의 높이는 대략 일정한 f ( x ) 입니다. 면적 f ( x )의 높이를 가진 막대를 그릴 수 있습니다.엑스[엑스,엑스+δ엑스]δ엑스에프(엑스) 는 해당 스트립에있는 대략적인 확률을 나타냅니다.에프(엑스)δ엑스

x = b 사이의 곡선 아래 면적을 어떻게 찾을 수 있습니까? 그 간격을 작은 조각으로 세분하고 막대의 면적의 합을 구할 수 있습니다. f ( x )엑스=엑스= 의 간격으로 누워 대략 확률에 대응하는 것이다 [ , B ] . 곡선과 막대가 정확하게 정렬되지 않았으므로 근사값에 오류가 있습니다. 함으로써 δ X는 각각 바 작아, 우리는 더 좁은 막대와 간격 기입 Σ F ( X를 )에프(엑스)δ엑스[,]δ엑스 는 면적의 더 나은 추정치를 제공합니다.에프(엑스)δ엑스

가 각 스트립에서 일정 하다고 가정하지 않고 면적을 정확하게 계산하기 위해 적분 b a f ( x ) d x 를 평가하며 이는 구간 [ a , b ] 에 놓여질 확률에 해당합니다 . . 전체 곡선에 적분하면 전체 면적 (즉, 총 확률)이 1이됩니다. 같은 이유로 상대 주파수 히스토그램의 모든 막대의 면적을 합하면 총 면적 (1)이됩니다. 통합 자체는 일종의 지속적인 버전입니다.에프(엑스)abf(x)dx[a,b]

여기에 이미지 설명을 입력하십시오

플롯의 R 코드

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)

당신은 처음 두 줄로 그것을 못 박았지만 나머지는 마찬가지로 좋습니다.
PatrickT

2
@PatrickT Thanks-교육 경험에 따르면 때로는 다른 학습자 (또는 독자)가 다른 수준의 지식을 가지고 있기 때문에 페니가 떨어지기 전에 몇 가지를 시도해야한다고 제안합니다. 처음 두 줄은 차원 분석 (예 : 물리 과학 또는 공학을 공부 한 경우)을 아는 독자를 설득해야하지만 음모가 나머지 부분을 정리하기를 바라고 있습니다! 내 경험상, 히스토그램 접근법은 이전에 그들을 본 적이있는 학생들에게 효과적입니다. "상대 주파수 밀도"와 "확률 밀도"사이의 갭은 보다 브리지하기가 더 쉽다 . f(x)=F(x)
Silverfish

1
@Silverfish : 누군가가 영어로 "페니 방울"이라는 용어를 사용한 것을 본 것은 이번이 처음입니다!
Mehrdad

1
첫 번째 차트는 누군가 새를 뒤집는 것처럼 보입니다 :)
Aksakal

1
@Aksakal Ooof. 나는 그것을 알아 차리지 못했다. 몇 가지 수정없이 수업에서이 예제를 사용하지 않아야합니다. (같은 줄에, 칠판에 해결하기 위해 문제를 만들 때, 69와 같은 특정 숫자가 나타나지 않는 것을 피하려고 노력합니다. 경험은 어렵습니다.)
Silverfish

7

Silverfish 의 훌륭한 답변을 통해 이미 두 가지 답변을 얻었 지만 형상에 대해 질문하고 해당 기능을 "상상"하기 때문에 그림이 유용 할 수 있다고 생각합니다.

Bernoulli 분포 의 간단한 예부터 시작 하겠습니다 .

f(x)={pif x=1,1pif x=0.

enter image description here

값이 불연속 적이므로 "곡선"은 없지만 두 점만 있지만 아이디어는 비슷합니다. 확률 (곡선 아래 면적) 을 알고 싶다면 가능한 두 결과의 확률을 요약해야합니다.

p+(1p)=1

p1p

xxf(x)x1x11#{xi}=N#{xi}/N=1N

enter image description here

xx. 따라서 포인트가 있다면 아무리 "확대"할지라도 포인트를 볼 수 없었습니다. 항상 주어진 포인트 사이에 무한한 수의 작은 포인트가있을 수 있기 때문입니다. 그것 때문에 여기에 실제로 곡선이 있습니다-당신은 그것이 무한히 많은 "점"으로 만들어 졌다고 상상할 수 있습니다. 당신은 스스로에게 물을 수 있습니다 : 무한한 확률의 합계를 계산하는 방법 ..? 아래 그림의 빨간색 곡선은 일반 PDF이며 검은 상자는 분포에서 가져온 일부 값의 히스토그램입니다. 히스토그램 플롯은 특정 수의 "박스"에 대한 분포를 단순화했습니다. 너비상자의 높이에 너비를 곱한 값은 곡선 아래의 영역 또는 모든 상자의 영역으로 끝납니다. 각 상자는 상자에 포장 된 무한한 "점"에 대한 요약이므로 여기에서는 점이 아닌 영역을 사용합니다.

enter image description here

f(x)2.53=0.5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

0.511 합니다.

11에프(엑스). 따라서 가능한 많은 "포인트"가 있기 때문에 단위는 실제로 중요하지 않습니다. 단위당 확률은 단위가 항상 동일합니다. 즉 "총"길이의 일부입니다 .

이 접근 방식은 좀 더 복잡한 문제 해결 적분을 단순화 된 방식으로 보여줍니다 . 연속적인 경우 곡선 아래 면적을 계산하기 위해 적분을 사용합니다. 점 사이의 곡선 영역의 적분 ( 줄거리에)는 다음과 같습니다.

에프(엑스)엑스

어디 에프(엑스) 키와 엑스 너비는 생각할 수 있습니다 같이 연속 변수의 경우. 적분과 미적분에 대한 자세한 내용은 Khan Academy 강의를 확인하십시오 .

"평면"(균일 한) 분포에 대해서도 물었습니다 .

enter image description here

첫 번째는 유효한 균일 분포가 아닙니다. <<<에 통합하려면 1. 당신이 그것을 생각하면, 그것은 연속적이고 평평하기 때문에 너비가있는 일종의 상자입니다.. 이러한 상자의 면적을 계산하려면 높이에 너비를 곱하십시오. 불행히도 너비는 무한대로 넓어 지지만1 높이는 약간이어야합니다 ε그것은 엄청나게 작습니다 ... 그래서 이것은 복잡한 경우이며 오히려 추상적 인 용어로 상상할 수 있습니다. 로, 공지 사항 Ilmari 카로 넨이 주석에서 발견이 오히려 (아래의 설명을 참조) 실제로 정말 수없는 추상적 인 생각이다. 이전과 같은 배포판을 사용하는 경우 이전에 부적절한 배포가 될 것 입니다.

연속적인 경우 확률 밀도 함수는 확률보다는 밀도 추정값을 제공하므로 높이 (또는 합계)가 1(자세한 내용은 여기 를 참조 하십시오 ).


1
무한 선의 평탄한 (즉, 균일 한 ) 분포의 경우 "복잡한"은 실제로 "불가능"을 의미합니다. 무한 측정 세트의 균일 한 분포는 유효 확률 분포가 아닙니다.1. 그건 때때로 유용 는 하나입니다 척하는 것이 아니라 모순에 신속하게 너무 멀리 리드를이 복용. (예 : let엑스와이 독립적이고 균일하게 배포되다 (,); 그 확률은 무엇입니까|엑스|<|와이|?)
Ilmari Karonen

"복잡하다"는 너무 비공식적입니다. 나중에 수정하겠습니다.

0

다음 핵심 아이디어는 주석에 언급되었지만 기존 답변에는 언급되지 않았습니다 ...

PDF의 속성을 이해하는 한 가지 방법은 PDF와 CDF 가 적분 (미적분)과 관련이 있으며 CDF에 0과 1 사이의 확률 값을 나타내는 단조로운 출력이 있다는 것을 고려하는 것입니다.

PDF 곡선 아래 의 단위없는 통합 된 총 면적은 X 축 단위의 영향을받지 않습니다.

간단히 말해서 ...

Area = Width x Height

단위 변경으로 인해 X 축이 수치 적으로 커지면 Y 축은 해당 선형 계수만큼 작아야합니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.