어느 쪽이 더 두꺼운 꼬리, 대수 정규 또는 감마를 가지고 있습니까?


41

(이것은 이메일을 통해 나에게 온 질문에 기초합니다. 같은 사람과의 이전 간단한 대화에서 일부 컨텍스트를 추가했습니다.)

작년에 나는 감마 분포가 로그 정규보다 더 무겁다는 말을 들었고, 그 이후에는 그렇지 않다고 들었습니다.

  • 어느 쪽 더 무겁습니까?

  • 관계를 탐색하는 데 사용할 수있는 리소스는 무엇입니까?


3
공감 한 사람에게 : 질문에 대해인지 된 문제가 무엇인지 아는 것이 유용 할 것입니다.
Glen_b

1
내가 아니었다, 나는 오래 전에 upvoted했다. 그러나 나는 그것이 특이 치가있는 상태에서 t-testing 가정의 맥락에서 두꺼운 꼬리 대 첨도의 유용성에 관한 것으로 의심합니다. 다운 보팅은 IMHO에 문제가 있습니다.
Carl

답변:


41

분포의 (오른쪽) 꼬리는 큰 값에서의 동작을 설명합니다. 연구 할 올바른 대상은 밀도가 아니라 많은 실제 경우에는 존재하지 않지만 분포 함수 입니다. 보다 구체적으로, 때문에 F가 에 점근 적으로 상승해야한다 (1) 대형 인수 X (총 확률의 법칙에 의해), 우리가 얼마나 빨리에 관심이 그 점근선 접근 : 우리는 그것의 행동을 조사 할 필요가 생존 기능 1 - F ( X를 ) 같은 X .에프에프1엑스 1에프(엑스)엑스

즉, 하나 개의 유통 확률 변수에 대한 X는 다른 하나보다 "무거운"이고 G는 그 제공된 결국 F는 보다 큰 값의 확률 이상 갖는 G를 . 이것은 공식화 될 수있다 : 모든 x > x 0 , 대해 유한 수 x 0 이 존재해야한다에프엑스 에프엑스0엑스>엑스0

PrF(X>x)=1F(x)>1G(x)=PrG(X>x).

그림

이 그림에서 빨간색 곡선은 포아송 분포 의 생존 함수입니다 . 파란색 곡선은 동일한 분산 을 갖는 감마 분포에 대한 것입니다. 결국 파란색 곡선은 항상 빨간색 곡선을 초과하므로이 감마 분포는이 푸 아송 분포보다 꼬리가 더 큽니다. 포아송 분포는 밀도가 없기 때문에 이러한 분포는 밀도를 사용하여 쉽게 비교할 수 없습니다.( 3 )(3)(3)

이것은 사실이다 때 밀도 및 존재 에 대한 후 보다 무거운 꼬리 인 . 그러나 그 반대는 거짓입니다. 그리고 이것은 종종 꼬리를 분석하는 것이 밀도를 사용하여 더 쉽게 수행 될 수 있더라도 꼬리 밀도의 정의를 밀도가 아닌 생존 함수에 기반을 두는 강력한 이유입니다.G F ( X ) > g ( X ) (X) > X 0 F Gfgf(x)>g(x)x>x0F

이의 예로는 이산 분포 취함으로써 구성 될 수있다 그럼에도없이보다 무거운 꼬리 것을 긍정적 바운드 지원 (이산화 트릭을 할 것이다). 작성된 각 지지점 에서 의 확률 질량을 적절한 간격에서 지지대를 갖는 스케일 된 베타 분포로 대체하여 이것을 연속 분포로 바꾸십시오 및 가중치 . 작은 양수 주어지면 선택하십시오.G G H k h ( k ) ( 2 , 2 ) [ k ε ( k ) , k + ε ( k ) ] h ( k ) δ , ε ( k ) f ( k ) / δ δ H + ( 1 δ ) G G ' G δ H f GHGGHkh(k)(2,2)[kε(k),k+ε(k)]h(k)δ,ε(k)이 스케일 된 베타 분포의 피크 밀도가 초과 할 정도로 충분히 작습니다 . 구성에 따르면, 혼합물 는 꼬리가 의 꼬리처럼 보이는 연속 분포 이지만 ( 양만큼 균일하게 조금 낮음 ) 스파이크가 있습니다. 의 지지점에서의 밀도 및 모든 스파이크는 이들이 밀도 초과하는 지점을 갖는다 . 따라서 은 보다 밝은 꼬리 이지만 꼬리에서 얼마나 멀리 떨어져 있든 밀도가 의 밀도를 초과하는 지점이 있습니다 .f(k)/δδH+(1δ)GGGδHf F FGFF

그림

빨간색 곡선은 감마 분포 의 PDF 이고, 금 곡선은 로그 정규 분포 의 PDF 이며, 파란색 곡선 (스파이크 포함)은 반례에서와 같이 구성된 혼합 의 PDF입니다 . (로그 밀도 축 에 유의하십시오 .) 의 생존 함수 는 감마 분포 의 생존 함수에 가깝습니다 (빠르게 쇠퇴하는 흔들림). PDF가 항상 그보다 급상승하더라도 보다 덜 커집니다. 의 아무리 멀리 꼬리에 우리가 봐.F G ' G ' F FGFGGFF


토론

또한, 우리는 대수 정규와 감마 분포의 생존 함수에 대해이 분석을 직접 수행하여 주위로 확장하여 점근 적 행동을 찾을 수 있으며 모든 대수 정규는 모든 감마보다 꼬리가 더 무겁다는 결론을 내릴 수 있습니다. 그러나, 이들 분포는 "좋은"밀도를 갖기 때문에, 충분히 큰 에 대해 로그 정규 밀도가 감마 밀도를 초과 함 을 보여줌으로써 분석이보다 쉽게 ​​수행된다 . 그러나이 분석의 편리함과 두꺼운 꼬리 의 의미 를 혼동하지 마십시오 .xx=엑스

마찬가지로 모멘트 및 첨도와 같은 높은 모멘트 및 변형은 꼬리에 대해 조금 말하지만 충분한 정보를 제공하지는 않습니다. 간단한 예를 들어, 우리는 주어진 수의 순간이 거의 변하지 않을 정도로 큰 값으로 모든 로그 정규 분포를자를 수 있습니다. 그러나 그렇게하면 꼬리가 완전히 제거되어 무한히 분포 된 분포보다 꼬리가 더 가벼워집니다 지원 (예 : 감마).

이러한 수학적 비틀림에 대한 공정한 이의 제기는 꼬리에서 지금까지의 행동은 실제 적용이 없다는 점을 지적하는 것입니다. 왜냐하면 분배 모델이 그러한 극단적 (아마도 육체적으로는 달성 할 수없는) 값에서 유효 할 것이라고 믿을 수 없기 때문입니다. 그러나 애플리케이션 에서 테일의 어느 부분 이 문제가 되는지 식별 하고 그에 따라 분석 해야한다는 점에 유의해야합니다 . (예를 들어 홍수 재발 시간은 10 년 홍수, 100 년 홍수 및 1000 년 홍수는 이러한 의미에서 홍수 분포 꼬리의 특정 부분을 특징으로합니다.) 동일한 원리가 적용됩니다. 여기서 분석의 기본 목표는 밀도가 아니라 분포 함수입니다.


6
생존자 기능을 기반으로해야하는 이유에 대한 +1 우수한 토론. 귀하의 답변을 살펴보아야 할 질문의 원천을 추천했습니다.
Glen_b

1
생존 기능을 해석하는 방법에 대한 좋은 확률 론적 논의를위한 (+1).

두꺼운 꼬리에 대한이 정의는 하나의 정의 로서 좋습니다. 그러나 심각한 문제가 있습니다. 특히, .9999 * U (-1,1) + .0001 * U (-1000,1000) 분포와 같이 꼬리가 두꺼운 꼬리 분포가있을 수 있습니다. 주어진 "정의"에 의해, N (0,1) 분포는 .9999 * U (-1,1) + .0001 * U (-1000,1000) 분포보다 꼬리가 무겁습니다. 이것은 분명히 바보입니다. 직면하자 : 분포의 꼬리를 측정하는 방법은 무한히 많다.
피터 웨스트 폴

1
@Peter 아이디어가 거꾸로 된 것처럼 보이기 때문에 "실패"가 발생합니다. 당신의 예제 중 어느 것도 "무거운"꼬리를 가지지 않습니다. 두 생존 함수는 결국 정확히 0이므로 두 꼬리 모두 똑같이 가볍습니다.
whuber

1
@PeterWestfall 지원이 한정된 테일과 무한한 지원이있는 테일을 의미있는 것처럼 비교했습니다. 불필요하고 어리석은 상황도 많이 있습니다. 이들을 비교하는 맥락에서 양자 차이 비율이 적절할 수있다. 그 이상의 맥락은 많지 않으며 생각할 수 있다면 말하십시오.
Carl

30

감마와 로그 정규 값은 모두 오른쪽으로 치우치고 변이 계수 분포 이며, 특정 현상에 대한 "경쟁"모델의 기초입니다.(0,)

꼬리의 무거움을 정의하는 방법에는 여러 가지가 있지만,이 경우 평범한 모든 것이 로그 정규가 무겁다는 것을 보여줍니다. (첫 번째 사람이 말한 것은 맨 끝이 아닌 모드 오른쪽에있는 것입니다 (예 : 아래의 첫 번째 줄거리에서 75 번째 백분위 수 정도이며 로그 정규 값은 5 미만입니다) 그리고 바로 위의 감마.)

그러나 아주 간단한 방법으로 질문을 탐색 해 봅시다.

아래는 평균 4와 분산 4를 갖는 감마 및 로그 정규 밀도 (상단 플롯-감마는 진한 녹색, 로그 정규는 파란색)와 밀도 로그 (하단)를 나타내므로 꼬리의 추세를 비교할 수 있습니다.

여기에 이미지 설명을 입력하십시오

모든 행동이 10의 오른쪽에 있기 때문에 상단 플롯에서 많은 세부 사항을보기가 어렵습니다. 그러나 두 번째 플롯에서는 감마가 로그 정규보다 훨씬 빠르게 내려가는 것이 분명합니다.

관계를 탐색하는 또 다른 방법은 여기 의 답변과 같이 로그의 밀도를 보는 것입니다 . 로그 정규에 대한 로그 밀도는 대칭 (정상입니다!)이며 감마에 대한 로그는 왼쪽으로 기울어 져 있으며 오른쪽에 밝은 꼬리가 있습니다.

우리는 이것을 대수적으로 할 수 있습니다. 여기서 밀도 비율을 (또는 비율의 로그)로 볼 수 있습니다. g 를 감마 밀도와 f 로그 정규로 하자 .xgf

log(g(x)/f(x))=log(g(x))log(f(x))

=log(1Γ(α)βαxα1ex/β)log(12πσxe(log(x)μ)22σ2)

=k1(α1)log(x)x/β(k2log(x)(log(x)μ)22σ2)

=[c(α2)log(x)+(log(x)μ)22σ2]x/β

[]의 항은 2 차 이고 나머지 항은 x 에서 선형 적으로 감소 합니다. 것이 무엇인지, 아무리 - X / β는 결국 차 증가보다 빠르게 내려갈 관계없이 매개 변수 값이 무엇인지 . 같은 한계 X , 밀도의 비의 로그를 향해 감소 - 감마 PDF 결국 로그 정규 PDF보다 작고, 상대적으로, 감소 유지 수단. 다른 방법으로 (로그 노멀이 맨 위에있는) 비율을 취하면 결국 한계를 넘어서야합니다.log(x)xx/βx

즉, 주어진 대수 정규 표현식은 결국 모든 감마 보다 무겁습니다 .


무거움의 다른 정의 :

어떤 사람들은 오른쪽 꼬리의 무거움을 측정하기 위해 왜도 또는 첨도에 관심이 있습니다. 주어진 변동 계수에서 대수 정규감마 보다 더 치우치고 첨도가 더 높습니다 . **

예를 들어, 왜도 를 사용하면 감마의 비대칭이 2CV 인 반면 로그 법선은 3CV + CV 3 입니다.3

꼬리가 얼마나 무거운 지에 대한 다양한 측정법에 대한 기술적 정의가 있습니다 . 이 두 배포판을 사용하는 것을 시도해 볼 수 있습니다. 로그 정규는 첫 번째 정의에서 흥미로운 특별한 경우입니다. 모든 순간이 존재하지만 MGF는 0 이상으로 수렴하지 않지만 감마에 대한 MGF는 0 부근에서 수렴합니다.

-

** Nick Cox가 아래에서 언급했듯이, 감마의 정규성을 근사하기위한 일반적인 변환 인 Wilson-Hilferty 변환은 로그보다 약합니다. 이것은 큐브 루트 변환입니다. 모양 매개 변수의 작은 값에서 네 번째 근이 언급되었지만 대신 이 답변 의 토론을 참조하십시오 .

왜도 (또는 첨도)를 비교한다고해서 극단적 인 꼬리에 필요한 관계가있는 것은 아닙니다. 대신 평균 행동에 대해 알려줍니다. 그러나 그 이유 때문에 원래 꼬리가 극단적 인 꼬리에 대해 작성되지 않은 경우 더 잘 작동 할 수 있습니다.


참고 자료 : R 또는 Minitab 또는 Matlab 또는 Excel과 같은 프로그램이나 밀도 및 로그 밀도 및 밀도 비율 로그 등을 그리는 것을 사용하여 특정 상황에서 어떻게 진행되는지 쉽게 볼 수 있습니다. 그게 내가 제안하는 것입니다.


4
실제로 그것은 최고점, 두꺼운 꼬리 및 첨도 사이에 필요한 관계가 없다고 제안합니다. 그러한 기대에 대한 반례가 있으므로주의해야합니다. 두 번째 줄거리는 의심을 확인합니다.
Glen_b

5
여기 하나의 라이너가 있습니다. 로그 정규화를 정상화하려면 로그 변환이 필요하다는 정의입니다. 입방체 뿌리가 감마를 정상으로 만드는 것은 좋은 근사치입니다 (Wilson-Hilferty는 현명한 단어입니다). 더 강력한 변환이 필요한 분포는 정규 또는 가우스로부터 "더 멀리"있습니다.
Nick Cox

2
@Glen_b 나는 당신의 아주 멋진 케이크에 약간의 장식을 추가하고 있습니다.
Nick Cox

2
@Nick Cox 나는 변형에 관한 진술에 동의하지 않습니다. 수학적 불법적 인 부분은 당신이 그리는 시도 결론이다 대수는 로그 정규 정상 만들고 큐브 루트가 감마 약 정상 수 있다는 사실에서, 당신이 그릴 수 있는 하나 하나의 꼬리에 대한 결론을.
whuber

2
감사; 당신의 요점은 더 명확하지만, 나는 "엄지 손가락 규칙"이라는 말을 고수하고 경험을 불러 일으 킵니다. 분명히, 정리가 없습니다.
Nick Cox

7

첨도는 꼬리의 무거움과 관련이 있지만 , 다음 예와 같이 뚱뚱한 꼬리 분포 의 개념에 더 많이 기여 하고 꼬리 무거움 자체에 상대적으로 덜 기여 합니다. 여기서 나는 위와 아래 게시물에서 배운 것을 역설한다. 이것은 정말 훌륭한 의견이다. 첫째, 오른쪽 꼬리의 면적은 f ( x ) 밀도 함수 의 x에서 까지의 영역 , AKA는 생존 함수, 1 - F ( t ) 입니다. 로그 정규 분포를 들어 전자 - ( 로그 ( X ) - μ ) 2f(x)1F(t)및 감마 분포βαxα-1eβxe(log(x)μ)22σ22πσx;x0, 각각의 생존 함수를 비교하자1βαxα1eβ엑스Γ(α);엑스0Q(α,β, X)=Γ(α,βX)12erfc(로그(엑스)μ2σ) 그래픽. 이렇게하려면, 내가 임의로 각각의 차이를 설정(전자 σ 2 -(1))전자2μ+σ2α(α,β엑스)=Γ(α,β엑스)Γ(α)(이자형σ21)이자형2μ+σ2 뿐만 아니라, 각각의 과잉 kurtoses32σ2+2전자(3)σ(2)+E(4)σ(2)-66αβ2이자형2σ2+2이자형σ2+이자형4σ26 선택하여 동일μ=0,σ=0.8및 해결을 위해α0.19128,β0.335421. 이것은 보여줍니다6αμ=0,σ=0.8α0.19128,β0.335421파란색의 LND 및 주황색의 GD의 경우 1-F (x)

파란색의 로그 정규 분포 (LND)와 주황색의 감마 분포 (GD)에 대한 생존 함수. 이것은 우리에게 첫 번째주의를 가져옵니다. 즉,이 줄거리가 우리가 조사해야 할 전부라면 GD의 꼬리가 LND보다 무겁다는 결론을 내릴 수 있습니다. 이 경우가 아니라는 것은 플롯의 x 축 값을 확장하여 표시되므로 LND 및 GD 더 긴 그래프의 경우 1-F (x)

이 그림은 1) 동일한 쿠르 토스를 사용하더라도 LND와 GD의 오른쪽 꼬리 영역이 다를 수 있음을 보여줍니다. 2) 그래픽 해석만으로는 제한된 범위에서 고정 매개 변수 값에 대한 결과 만 표시 할 수 있으므로 위험이 있습니다. 따라서, 의 제한 생존 함수 비율에 대한 일반적인 표현을 찾아야합니다.limxS(LND,x)S(GD,x)limxF(x)G(x)=1F(x)G(x)limuerfc(u)eu2πu=1limuΓ(α,u)euuα1=1erfc(u)<eu2πuΓ(α,u)<euuα112erfc(log(x)μ2σ)<e(log(x)μ2σ)22(π(log(x)μ))2σΓ(α,βx)Γ(α)<eβx(βx)α1Γ(α)xlimxσΓ(α)(βx)1αeβx(μlog(x))22σ22π(log(x)μ)=α<1α>1α=1.

우리가 한계 비율을 찾기 위해 대수를 취할 필요가 없기 때문에 생존 함수 비율의 대수를 사용하는 것은 무엇입니까? 많은 분포 함수에는 로그를 취할 때 더 단순 해 보이는 지수 항이 포함되어 있으며, x가 증가함에 따라 비율이 무한대로 가면 로그도 그렇게됩니다. 이 경우 를 검사 할 수 있습니다.limx(log(σΓ(α)(βx)1α2π(log(x)μ))+βx(μlog(x))22σ2)=


2
이 경우 (그리고 종종 관심있는 경우) 높은 첨도는 두꺼운 꼬리에 해당하지만 일반적인 제안으로는 그렇지 않습니다-반대의 예는 쉽게 구성 할 수 있습니다.
Glen_b

1
S(x)=1F(x)F(x)

2
"이것은 모멘트 정리와 관련이 있습니다. 즉, 두 분포의 모멘트가 모두 같다면 분포는 동일하다는 것입니다." - 두 분포의 모멘트가 모두 같 더라도 분포가 반드시 동일하지는 않습니다. 이에 대한 예는 여기 CV의 몇 가지 질문에 대한 답변으로 설명됩니다. 모든 순간이 같은 것 이상이 필요합니다. 0 근처에 MGF가 있어야합니다.
Glen_b

1
0t<

1
@PeterWestfall nma.berkeley.edu/ark:/28722/bk000471p7j와 비슷한 포인트를 얻습니다 . 모든 분포가 다른 것들에 대해 다른 조치를 의미한다는 것을 기억해야합니다. 예를 들어, 평균이 아닌 평균이 아닌 균일 분포의 위치에 대한 평균 극단 값은 MVUE입니다. 이러한 극단적 인 값 사이에서 꼬리는 무겁지만 바깥에서 꼬리는 zip입니다. 첫 번째 순간이 MVUE가 아닌 첨도와 같은 더 높은 순간과 관련이있는 것은 추측하지 않을 것입니다. 어쩌면 무엇인가?
Carl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.