(이것은 이메일을 통해 나에게 온 질문에 기초합니다. 같은 사람과의 이전 간단한 대화에서 일부 컨텍스트를 추가했습니다.)
작년에 나는 감마 분포가 로그 정규보다 더 무겁다는 말을 들었고, 그 이후에는 그렇지 않다고 들었습니다.
어느 쪽 이 더 무겁습니까?
관계를 탐색하는 데 사용할 수있는 리소스는 무엇입니까?
(이것은 이메일을 통해 나에게 온 질문에 기초합니다. 같은 사람과의 이전 간단한 대화에서 일부 컨텍스트를 추가했습니다.)
작년에 나는 감마 분포가 로그 정규보다 더 무겁다는 말을 들었고, 그 이후에는 그렇지 않다고 들었습니다.
어느 쪽 이 더 무겁습니까?
관계를 탐색하는 데 사용할 수있는 리소스는 무엇입니까?
답변:
분포의 (오른쪽) 꼬리는 큰 값에서의 동작을 설명합니다. 연구 할 올바른 대상은 밀도가 아니라 많은 실제 경우에는 존재하지 않지만 분포 함수 입니다. 보다 구체적으로, 때문에 F가 에 점근 적으로 상승해야한다 (1) 대형 인수 X (총 확률의 법칙에 의해), 우리가 얼마나 빨리에 관심이 그 점근선 접근 : 우리는 그것의 행동을 조사 할 필요가 생존 기능 1 - F ( X를 ) 같은 X → ∞ .
즉, 하나 개의 유통 확률 변수에 대한 X는 다른 하나보다 "무거운"이고 G는 그 제공된 결국 F는 보다 큰 값의 확률 이상 갖는 G를 . 이것은 공식화 될 수있다 : 모든 x > x 0 , 대해 유한 수 x 0 이 존재해야한다
이 그림에서 빨간색 곡선은 포아송 분포 의 생존 함수입니다 . 파란색 곡선은 동일한 분산 을 갖는 감마 분포에 대한 것입니다. 결국 파란색 곡선은 항상 빨간색 곡선을 초과하므로이 감마 분포는이 푸 아송 분포보다 꼬리가 더 큽니다. 포아송 분포는 밀도가 없기 때문에 이러한 분포는 밀도를 사용하여 쉽게 비교할 수 없습니다.( 3 )
이것은 사실이다 때 밀도 및 존재 에 대한 후 보다 무거운 꼬리 인 . 그러나 그 반대는 거짓입니다. 그리고 이것은 종종 꼬리를 분석하는 것이 밀도를 사용하여 더 쉽게 수행 될 수 있더라도 꼬리 밀도의 정의를 밀도가 아닌 생존 함수에 기반을 두는 강력한 이유입니다.G F ( X ) > g ( X ) (X) > X 0 F G
이의 예로는 이산 분포 취함으로써 구성 될 수있다 그럼에도없이보다 무거운 꼬리 것을 긍정적 바운드 지원 (이산화 트릭을 할 것이다). 작성된 각 지지점 에서 의 확률 질량을 적절한 간격에서 지지대를 갖는 스케일 된 베타 분포로 대체하여 이것을 연속 분포로 바꾸십시오 및 가중치 . 작은 양수 주어지면 선택하십시오.G G H k h ( k ) ( 2 , 2 ) [ k − ε ( k ) , k + ε ( k ) ] h ( k ) δ , ε ( k ) f ( k ) / δ δ H + ( 1 − δ ) G G ' G δ H f G이 스케일 된 베타 분포의 피크 밀도가 초과 할 정도로 충분히 작습니다 . 구성에 따르면, 혼합물 는 꼬리가 의 꼬리처럼 보이는 연속 분포 이지만 ( 양만큼 균일하게 조금 낮음 ) 스파이크가 있습니다. 의 지지점에서의 밀도 및 모든 스파이크는 이들이 밀도 초과하는 지점을 갖는다 . 따라서 은 보다 밝은 꼬리 이지만 꼬리에서 얼마나 멀리 떨어져 있든 밀도가 의 밀도를 초과하는 지점이 있습니다 . F F
빨간색 곡선은 감마 분포 의 PDF 이고, 금 곡선은 로그 정규 분포 의 PDF 이며, 파란색 곡선 (스파이크 포함)은 반례에서와 같이 구성된 혼합 의 PDF입니다 . (로그 밀도 축 에 유의하십시오 .) 의 생존 함수 는 감마 분포 의 생존 함수에 가깝습니다 (빠르게 쇠퇴하는 흔들림). PDF가 항상 그보다 급상승하더라도 보다 덜 커집니다. 의 아무리 멀리 꼬리에 우리가 봐.F G ' G ' F F
또한, 우리는 대수 정규와 감마 분포의 생존 함수에 대해이 분석을 직접 수행하여 주위로 확장하여 점근 적 행동을 찾을 수 있으며 모든 대수 정규는 모든 감마보다 꼬리가 더 무겁다는 결론을 내릴 수 있습니다. 그러나, 이들 분포는 "좋은"밀도를 갖기 때문에, 충분히 큰 에 대해 로그 정규 밀도가 감마 밀도를 초과 함 을 보여줌으로써 분석이보다 쉽게 수행된다 . 그러나이 분석의 편리함과 두꺼운 꼬리 의 의미 를 혼동하지 마십시오 .x
마찬가지로 모멘트 및 첨도와 같은 높은 모멘트 및 변형은 꼬리에 대해 조금 말하지만 충분한 정보를 제공하지는 않습니다. 간단한 예를 들어, 우리는 주어진 수의 순간이 거의 변하지 않을 정도로 큰 값으로 모든 로그 정규 분포를자를 수 있습니다. 그러나 그렇게하면 꼬리가 완전히 제거되어 무한히 분포 된 분포보다 꼬리가 더 가벼워집니다 지원 (예 : 감마).
이러한 수학적 비틀림에 대한 공정한 이의 제기는 꼬리에서 지금까지의 행동은 실제 적용이 없다는 점을 지적하는 것입니다. 왜냐하면 분배 모델이 그러한 극단적 (아마도 육체적으로는 달성 할 수없는) 값에서 유효 할 것이라고 믿을 수 없기 때문입니다. 그러나 애플리케이션 에서 테일의 어느 부분 이 문제가 되는지 식별 하고 그에 따라 분석 해야한다는 점에 유의해야합니다 . (예를 들어 홍수 재발 시간은 10 년 홍수, 100 년 홍수 및 1000 년 홍수는 이러한 의미에서 홍수 분포 꼬리의 특정 부분을 특징으로합니다.) 동일한 원리가 적용됩니다. 여기서 분석의 기본 목표는 밀도가 아니라 분포 함수입니다.
감마와 로그 정규 값은 모두 오른쪽으로 치우치고 변이 계수 분포 이며, 특정 현상에 대한 "경쟁"모델의 기초입니다.
꼬리의 무거움을 정의하는 방법에는 여러 가지가 있지만,이 경우 평범한 모든 것이 로그 정규가 무겁다는 것을 보여줍니다. (첫 번째 사람이 말한 것은 맨 끝이 아닌 모드 오른쪽에있는 것입니다 (예 : 아래의 첫 번째 줄거리에서 75 번째 백분위 수 정도이며 로그 정규 값은 5 미만입니다) 그리고 바로 위의 감마.)
그러나 아주 간단한 방법으로 질문을 탐색 해 봅시다.
아래는 평균 4와 분산 4를 갖는 감마 및 로그 정규 밀도 (상단 플롯-감마는 진한 녹색, 로그 정규는 파란색)와 밀도 로그 (하단)를 나타내므로 꼬리의 추세를 비교할 수 있습니다.
모든 행동이 10의 오른쪽에 있기 때문에 상단 플롯에서 많은 세부 사항을보기가 어렵습니다. 그러나 두 번째 플롯에서는 감마가 로그 정규보다 훨씬 빠르게 내려가는 것이 분명합니다.
관계를 탐색하는 또 다른 방법은 여기 의 답변과 같이 로그의 밀도를 보는 것입니다 . 로그 정규에 대한 로그 밀도는 대칭 (정상입니다!)이며 감마에 대한 로그는 왼쪽으로 기울어 져 있으며 오른쪽에 밝은 꼬리가 있습니다.
우리는 이것을 대수적으로 할 수 있습니다. 여기서 밀도 비율을 (또는 비율의 로그)로 볼 수 있습니다. g 를 감마 밀도와 f 로그 정규로 하자 .
[]의 항은 2 차 이고 나머지 항은 x 에서 선형 적으로 감소 합니다. 것이 무엇인지, 아무리 - X / β는 결국 차 증가보다 빠르게 내려갈 관계없이 매개 변수 값이 무엇인지 . 같은 한계 X → ∞ , 밀도의 비의 로그를 향해 감소 - ∞ 감마 PDF 결국 로그 정규 PDF보다 작고, 상대적으로, 감소 유지 수단. 다른 방법으로 (로그 노멀이 맨 위에있는) 비율을 취하면 결국 한계를 넘어서야합니다.
즉, 주어진 대수 정규 표현식은 결국 모든 감마 보다 무겁습니다 .
무거움의 다른 정의 :
어떤 사람들은 오른쪽 꼬리의 무거움을 측정하기 위해 왜도 또는 첨도에 관심이 있습니다. 주어진 변동 계수에서 대수 정규 는 감마 보다 더 치우치고 첨도가 더 높습니다 . **
예를 들어, 왜도 를 사용하면 감마의 비대칭이 2CV 인 반면 로그 법선은 3CV + CV 3 입니다.
꼬리가 얼마나 무거운 지에 대한 다양한 측정법에 대한 기술적 정의가 있습니다 . 이 두 배포판을 사용하는 것을 시도해 볼 수 있습니다. 로그 정규는 첫 번째 정의에서 흥미로운 특별한 경우입니다. 모든 순간이 존재하지만 MGF는 0 이상으로 수렴하지 않지만 감마에 대한 MGF는 0 부근에서 수렴합니다.
-
** Nick Cox가 아래에서 언급했듯이, 감마의 정규성을 근사하기위한 일반적인 변환 인 Wilson-Hilferty 변환은 로그보다 약합니다. 이것은 큐브 루트 변환입니다. 모양 매개 변수의 작은 값에서 네 번째 근이 언급되었지만 대신 이 답변 의 토론을 참조하십시오 .
왜도 (또는 첨도)를 비교한다고해서 극단적 인 꼬리에 필요한 관계가있는 것은 아닙니다. 대신 평균 행동에 대해 알려줍니다. 그러나 그 이유 때문에 원래 꼬리가 극단적 인 꼬리에 대해 작성되지 않은 경우 더 잘 작동 할 수 있습니다.
참고 자료 : R 또는 Minitab 또는 Matlab 또는 Excel과 같은 프로그램이나 밀도 및 로그 밀도 및 밀도 비율 로그 등을 그리는 것을 사용하여 특정 상황에서 어떻게 진행되는지 쉽게 볼 수 있습니다. 그게 내가 제안하는 것입니다.
첨도는 꼬리의 무거움과 관련이 있지만 , 다음 예와 같이 뚱뚱한 꼬리 분포 의 개념에 더 많이 기여 하고 꼬리 무거움 자체에 상대적으로 덜 기여 합니다. 여기서 나는 위와 아래 게시물에서 배운 것을 역설한다. 이것은 정말 훌륭한 의견이다. 첫째, 오른쪽 꼬리의 면적은 f ( x ) 밀도 함수 의 x에서 까지의 영역 , AKA는 생존 함수, 1 - F ( t ) 입니다. 로그 정규 분포를 들어 전자 - ( 로그 ( X ) - μ ) 2및 감마 분포βαxα-1e−βx, 각각의 생존 함수를 비교하자1및Q(α,β, X)=Γ(α,βX) 그래픽. 이렇게하려면, 내가 임의로 각각의 차이를 설정(전자 σ 2 -(1))전자2μ+σ2및α 뿐만 아니라, 각각의 과잉 kurtoses3예2σ2+2전자(3)σ(2)+E(4)σ(2)-6및6 선택하여 동일μ=0,σ=0.8및 해결을 위해α→0.19128,β→0.335421. 이것은 보여줍니다
파란색의 로그 정규 분포 (LND)와 주황색의 감마 분포 (GD)에 대한 생존 함수. 이것은 우리에게 첫 번째주의를 가져옵니다. 즉,이 줄거리가 우리가 조사해야 할 전부라면 GD의 꼬리가 LND보다 무겁다는 결론을 내릴 수 있습니다. 이 경우가 아니라는 것은 플롯의 x 축 값을 확장하여 표시되므로
이 그림은 1) 동일한 쿠르 토스를 사용하더라도 LND와 GD의 오른쪽 꼬리 영역이 다를 수 있음을 보여줍니다. 2) 그래픽 해석만으로는 제한된 범위에서 고정 매개 변수 값에 대한 결과 만 표시 할 수 있으므로 위험이 있습니다. 따라서, 의 제한 생존 함수 비율에 대한 일반적인 표현을 찾아야합니다..
우리가 한계 비율을 찾기 위해 대수를 취할 필요가 없기 때문에 생존 함수 비율의 대수를 사용하는 것은 무엇입니까? 많은 분포 함수에는 로그를 취할 때 더 단순 해 보이는 지수 항이 포함되어 있으며, x가 증가함에 따라 비율이 무한대로 가면 로그도 그렇게됩니다. 이 경우 를 검사 할 수 있습니다.