두 표본 분포의 꼬리 비교


13

대략 0을 중심으로하는 두 개의 데이터 세트가 있지만 꼬리가 다른 것으로 의심됩니다. 분포를 정규 분포와 비교하기위한 몇 가지 테스트를 알고 있지만 두 분포를 직접 비교하고 싶습니다.

두 분포의 꼬리의 비만을 비교 하는 간단한 테스트가 있습니까?

감사합니다
fRed


"팻 테일"태그가 실제로 의미가 있습니까 (향후 질문에)?
chl

@chl 당신은 나에게 말할 것입니다, 나는 통계에서 당신만큼 경험이 없습니다. 그러나 IMO는 꼬리의 중요성을 과소 평가하는 고전적인 편견입니다. 만델 브로트의 작품을 읽었습니까? 팻 테일은 재무에 대한 응용 통계에서 매우 중요하며 2008 년의 신용 위기는 정상 성을 가정하고 일부 상관 관계 분포의 팻 테일을 과소 평가하는 일부 가격 모델에서 비롯되었습니다. 우리는 그것을 다른 스레드에서 토론 할 수 있습니다 :)
RockScience

1
이 질문은 잠재적으로 흥미롭지 만 일부 설명은 환영받을 것입니다. 한쪽 꼬리 또는 둘 다가 걱정 되십니까? "비만"을 어떻게 측정합니까? (예를 들어 비교를 위해 두 분포를 이동하고 크기를 조정 하시겠습니까?) "비만"의 편차를 어떻게 측정합니까? 가설 검정을 고려하면 대체 가설은 정확히 무엇입니까?
whuber

@ RockScience, 나는 두 개의 분포가 있고 꼬리 만 비교하고 싶습니다. 어떻게해야합니까? 첨도를 계산할 수 있다는 것을 알고 있지만 두 꼬리가 다른지 어떻게 테스트 했습니까?
user2380782

답변:



2

람다라고하는 임계 값을 구성하면이 꼬리 영역에 속하는 두 개의 관측 데이터 세트를 기반으로 꼬리 영역 (\ lambda, 무한대)에 제한된 두 분포의 두 평균 또는 분산의 동등성을 테스트 할 수 있습니다. 물론, 2 개의 샘플 t- 검정 또는 F- 검정은 양호 할 수 있지만,이 꼬리 영역에 제한되는 랜덤 변수는 원래의 것조차 정상이 아니기 때문에 강력하지 않다.


절단 된 분포와 같은 극단 값 이론 연구 : 무증상으로 꼬리의 분포는 일반적으로 일반화 된 파레토 패밀리에 속합니다 . 데이터를이 분포 계열에 맞추고 모수를 비교할 수도 있습니다.
Vincent Zoonekynd

@Vincent 꼬리는 거의 모든 분포를 가질 수 있습니다. 극단적 가치 이론은 꼬리에 대해 거의 말하지 않습니다. 그것은 iid 샘플의 최대 (또는 최소) 분포에 초점을 맞추고 있습니다.
whuber


1

Chi Square 검정 (Fitness-of-Fit 검정)은 두 분포를 값의 버킷 (그래픽으로 히스토그램으로 표시)으로 비교하도록 구성되어 있으므로 두 분포의 꼬리를 비교하는 데 매우 유용합니다. 그리고 꼬리는 가장 많은 양동이에 구성됩니다.

이 테스트는 전체 분포에 중점을 두지 만 꼬리뿐만 아니라 꼬리의 비만 차이로 인해 Chi Square 값 또는 분기가 얼마나 많이 발생하는지 쉽게 확인할 수 있습니다.

파생 된 히스토그램이 실제로 테스트 관련 통계적 유의성보다 꼬리의 각 지방에 대해 훨씬 더 많은 정보를 시각적으로 제공 할 수 있습니다. 꼬리 비만이 통계적으로 다르다는 것을 언급하는 것이 한 가지입니다. 시각적으로 관찰하는 것도 또 다른 일입니다. 그들은 그림이 천 단어의 가치가 있다고 말합니다. 때때로 그것은 또한 수천 개의 숫자의 가치가 있습니다 (그래프가 모든 숫자를 캡슐화한다는 것이 의미가 있습니다).


3
Chi Square 테스트는 꼬리의 차이를 식별하는 데 특히 좋지 않은 것 같습니다 . 꼬리가 많은 빈으로 덮여 있으면 꼬리이기 때문에 모든 빈에 데이터가 거의 없어 카이 제곱 근사를 무효화 할 수 있습니다. 꼬리가 몇 개의 쓰레기통으로 덮여 있다면, 당신은 그들의 모양을 구별 할 수있는 거의 모든 힘을 잃게됩니다. 그리고 당신이 구별 할 수있는 것은별로 관련이 없거나 유용하지 않을 수 있습니다. (우리가 여기서 직면하고있는 한 가지 문제는 "꼬리의 비만"이 정의되지 않았기 때문에 질문에 대한 답변이 너무 모호합니다.)
whuber

@ whuber, 나는 당신의 요점 중 하나를 완전히 이해하지 못하기 때문에 귀하의 의견에 동의하는지 여부를 말할 수 없습니다. "카이 제곱 근사값 무효화"란 정확히 무엇을 의미합니까?
Sympa

카이 제곱 검정은 카이 제곱 통계량의 실제 분포에 대한 정규 이론 이론 근사를 기반으로합니다. 빈 인구가 5 아래로 떨어지면 일반적으로이 근사치가 나빠집니다.
whuber

@ whuber, 설명 주셔서 감사합니다. 그것을 고려할 때, 나는 당신의 초기 의견의 첫 번째 문구가 당신이 생각한 것만 큼 미묘한 차이를 느끼지 못할 것이라고 생각합니다 ( "치 스퀘어 테스트는 꼬리의 차이를 식별하는 데 특히 열악합니다"). 아마도 더 적절한 진술은 "그것에 달려있다 ..."였을 것입니다. 그리고 히스토그램의 구성을 중요하게 촉진합니다. 빈에 5 개 미만의 관측치가있는 경우, 잘 설명 된대로 정확도가 떨어집니다.
Sympa

@Gaetan 나는 뉘앙스에 관심을 갖지만,이 경우에는 판단이 정당한 것으로 보인다. 분포를 비교하는 데 사용할 수있는 다른 많은 방법과 비교하여 Chi Squared 검정은 잘 견디지 못합니다. 데이터 자체를 기반으로 "관련 빈을 정의"하면 테스트가 유효하지 않습니다. 또한 히스토그램은 일반적으로 분포의 꼬리를 보는 유용한 방법이 아닙니다. 그러나 문제가 잘못 정의되어 있기 때문에 대안을 제안하는 것을 꺼려합니다. 두 분포가 동일한 "꼬리의 비만"을 갖는 것은 무엇을 의미할까요? 첨도 (Kutosis)가 하나의 가능성이지만, 그것은 대단한 척도입니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.