일 변량 랜덤 변수의 평균이 항상 Quantile 함수의 적분과 동일합니까?


17

단 변량 랜덤 변수의 Quantile 함수 (역 cdf)를 p = 0에서 p = 1로 통합하면 변수의 평균이 생성됨을 알았습니다. 나는 지금까지 이러한 관계에 대해 들어 본 적이 없으므로 궁금합니다. 이것이 항상 그렇습니까? 그렇다면이 관계가 널리 알려져 있습니까?

다음은 파이썬의 예입니다.

from math import sqrt
from scipy.integrate import quad
from scipy.special import erfinv

def normalPdf(x, mu, sigma):
    return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0))

def normalQf(p, mu, sigma):
    return mu + sigma * sqrt(2.0) * erfinv(2.0 * p - 1.0)

mu = 2.5
sigma = 1.3
quantileIntegral = quad(lambda p: quantile(p,mu,sigma), 0.0, 1.0)[0]
print quantileIntegral # Prints 2.5.

답변:


26

하자 F 임의 변수의 CDF 수 X CDF 역 기록 할 수 있도록, F1 . 적분에서 p=F(x) , dp=F(x)dx=f(x)dx 로 대입하여

01F1(p)dp=xf(x)dx=EF[X].

이는 연속 배포에 유효합니다. 역 CDF는 고유 한 정의가 아니기 때문에 다른 분포에주의해야합니다.

편집하다

변수가 연속적이지 않은 경우, 역 CDF의 정의에주의를 기울이고 계산 적분에주의를 기울여야하는 Lebesgue 측정과 관련하여 절대적으로 연속적인 분포가 없습니다. 예를 들어 불연속 분포의 경우를 고려하십시오. 정의에 따르면, 이는 CDF F 가 각각의 가능한 값 x 에서 크기 단계를 가진 단계 함수 인 것입니다 .PrF(x)x

그림 1

이 도면에 도시하는 베르누이의 CDF는 분배에 의해 스케일 (2) . 즉, 임의의 변수를 갖는 확률 1 / 3 같게의 0 과 확률 2 / 3 같게의 2 . 02 의 점프 높이는 확률을 제공합니다. 이 변수의 기대치는 .(2/3)21/302/32020×(1/3)+2×(2/3)=4/3

"inverse CDF" 함으로써F1

F1(p)=x if F(x)p and F(x)<p.

이는 도 단계 함수 임을 의미합니다 . 가능한 모든 값F1 랜덤 변수, F - 1 값에 도달한다 (X)를 길이의 간격F ( X ) . 따라서 적분은 값 x Pr F ( x ) 를 합산하여 얻을 수있습니다.xF1xPrF(x)xPrF(x)

그림 2

이것은 앞의 예에서 역 CDF의 그래프입니다. 점프의 2 / 3 CDF의 높이가 이들 길이의 수평 라인이 동일하게 02 , 그 확률을 해당하는 값. (역 CDF는 간격을 넘어 정의되지 [ 0 , 1 ] ). 그 적분 개의 직사각형 높이의 하나의 합 0 베이스 1 / 3 , 높이가 다른 2 베이스 (2) / 3 으로 총 4 /1/32/302[0,1]01/322/34/3, 이전과.

일반적으로 연속 분포와 불연속 분포의 혼합의 경우이 구성과 평행을 이루도록 역 CDF를 정의해야합니다. 각 개별 높이 점프 에서 앞의 공식에 따라 길이 p 의 가로 선을 형성해야합니다 .pp


변수 변경에 실수를했습니다. x는 어디에서 오는가?
마스카 르포 네

3
@Mascarpone 방정식 앞의 텍스트를 읽으십시오. 변수의 변경에 실수가 없다고 생각합니다 :-) 설명을 명확하게 할 것이라고 생각한다면 이면 x = F - 1 ( p ) . 나는 그것이 필요하다고 생각하지 않았습니다. p=F(x)x=F1(p)
whuber

지금 나는 그것을 얻었다;)
마스카 르포 네

+1 Whuber : 감사합니다! 제공 한 공식을 사용하기 위해 역 CDF에 고유 한 정의가없는 다른 분포를 관리하는 방법을 자세히 설명해 주시겠습니까?
모든

1
역수, 의사 역수 등에 대한 이러한 불안전 한 고려 사항을 무시하고 동시에 모든 순간에 일반화하려면 여기를 참조 하십시오 .
나요

9

동등한 결과는 생존 분석 에서 잘 알려져 있습니다 . 예상 수명은 여기서 d t 는 생존 함수가 t = 0 에서 태어 났을 때 측정 된 S ( t ) = Pr ( T > t ) 이다. ( t의 음수 값을 포함하도록 쉽게 확장 할 수 있습니다.)

t=0S(t)dt
S(t)=Pr(T>t)t=0t

enter image description here

따라서 이것을 t = 0 ( 1 F ( t ) ) 로 다시 쓸 수 있습니다 그러나 이것은1 q = 0 F 1 ( q )

t=0(1F(t))dt
해당 지역의 다양한 반사에 나타난 d q
q=01F1(q)dq

enter image description here


1
나는 그림을 좋아하고 본능적으로 여기에 숨어있는 좋은 아이디어가 있다고 생각합니다. 나는 그 아이디어를 좋아 합니다. 그러나 저는이 특정 것들을 이해하지 못합니다. 설명이 도움이 될 것입니다. 내 트랙에서 저를 정지 한 가지의 중요한 확장하는 노력의 생각입니다 - : 그것은 적 분산에있다. (1F(t))dt
whuber

@whuber : 당신이 부정적으로 확장 할 경우 , 당신의 get t = 0 ( 1 - F ( t ) )t . 참고 그것에 대해 유통 대칭이 수렴 경우 0 , 즉 F ( t이 ) = 1 - F는 ( - t ) 다음은 기대가 제로하다는 것을 쉽게 알 수있다. 차이가 아닌 합을 취하기t = 0 ( 1 F ( t ) )t=0(1F(t))dtt=0F(t)dt0F(t)=1F(t) 는 약 0 의 평균 절대 편차를 제공합니다. t=0(1F(t))dt+t=0F(t)dt0
Henry

다이어그램이 마음에 들면 Lee의이 1988 년 논문 : 손실 초과 범위의 수학 및 회고 적 평가-그래픽 접근 방식에 관심이있을 수 있습니다 .
Avraham

4

우리는 평가하고 있습니다 :

enter image description here

간단한 변수 변경으로 시도해 봅시다.

enter image description here

그리고 PDF와 CDF의 정의에 따르면 :

enter image description here

거의 모든 곳에서. 따라서 우리는 기대 가치의 정의에 따라

enter image description here


마지막 줄에는 기대 값의 정의를 더 명확하게 설명합니다. 거의 모든 곳이 마지막 방정식 위의 방정식을 나타냅니다. en.wikipedia.org/wiki/Almost_everywhere
마스카 르포 네

1
편집, 고맙습니다 :)
Mascarpone

3

XF F1(U)XU(0,1)XF1(U)

E(X)=E(F1(U))=01F1(u)du.
The representation XF1(U) holds for a general cdf F, taking F1 to be the left-continuous inverse of F in the case when F it is not invertible.

1

Note that F(x) is defined as P(Xx) and is a right-continuous function. F1 is defined as

F1(p)=min(x|F(x)p).
The min makes sense because of the right continuity. Let U be a uniform distribution on [0,1]. You can easily verify that F1(U) has the same CDF as X, which is F. This doesn't require X to be continuous. Hence, E(X)=E(F1(U))=01F1(p)dp. The integral is the Riemann–Stieltjes integral. The only assumption we need is the mean of X exists (E|X|<).

That's the same answer as mine.
Stéphane Laurent
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.