Cauchy 분포는 어떻게 든 "예측할 수없는"분포입니까?


14

Cauchy 분포는 어떻게 든 "예측할 수없는"분포입니까?

나는 노력했다

cs <- function(n) {
  return(rcauchy(n,0,1))
}

다수의 n 값에 대해 R에서 R은 때때로 예측할 수없는 값을 생성한다는 것을 알았습니다.

예를 들어 비교

as <- function(n) {
  return(rnorm(n,0,1))
}

항상 "소형"의 구름을 제공하는 것 같습니다.

이 그림으로 정규 분포처럼 보일까요? 그러나 값의 하위 집합에 대해서만 가능합니다. 또는 Cauchy 표준 편차 (아래 그림에서)가 훨씬 천천히 (왼쪽 및 오른쪽으로) 수렴되어 확률이 낮더라도 더 심각한 이상 치를 허용한다는 것이 요령일까요?

https://i.stack.imgur.com/zGTLU.png

여기서 정상적인 rvs와 cs는 Cauchy rvs입니다.

여기에 이미지 설명을 입력하십시오

그러나 특이 치의 끝으로 코시 PDF의 꼬리가 결코 수렴하지 않을 수 있습니까?


9
1. 귀하의 질문이 모호하거나 명확하지 않으므로 답변하기가 어렵습니다. 예를 들어, "예측할 수없는"은 당신의 질문에서 무엇을 의미합니까? "코시 표준 편차"와 끝 부분의 수렴은 무엇을 의미합니까? 어디에서나 표준 편차를 계산하지 않는 것 같습니다. 정확히 무엇의 표준 편차? 2. 현장의 많은 게시물은 질문에 집중하는 데 도움이 될 수있는 Cauchy의 속성에 대해 설명합니다. Wikipedia를 확인하는 것도 좋습니다. 3. "종 모양"이라는 용어를 피하는 것이 좋습니다. 두 밀도 모두 대략 종 모양 인 것 같습니다. 그냥 이름으로 불러주세요.
Glen_b-복지 주 모니카

4
물론 코시가되어 매우 무거운 꼬리.
Glen_b-복지 주 모니카

1
몇 가지 사실을 게시했습니다. 잘만되면 이것들은 당신이 당신이 질문을 다듬을 수 있도록 알고 싶은 것을 알아내는 데 도움이 될 것입니다.
Glen_b-복귀 모니카

1
|엑스|엑스

2
큰 특이 치는 정규적으로 가능하지만 엄청나게 드물다 . Cauchy보다 0 보다 훨씬 빠른 방향으로 일반 헤드의 밀도 (및 상단 꼬리, 특히 주어진 크기 이상의 특이 치, 생존 함수의 관련성) -그러나 그럼에도 불구하고 두 밀도 (및 생존 함수) 0에 접근하고 결코 도달하지 않습니다.
Glen_b-복지 주 모니카

답변:


39

사이트의 많은 게시물이 Cauchy의 다양한 속성을 다루었지만 실제로 함께 배치 한 게시물을 찾지 못했습니다. 잘하면 이것은 일부를 수집하기에 좋은 장소 일 수 있습니다. 이것을 확장 할 수 있습니다.

두꺼운 꼬리

코시 (Cauchy)는 대칭적이고 대략 종 모양이지만, 정규 분포와 다소 비슷하지만 꼬리가 훨씬 무겁고 "어깨"가 적습니다. 예를 들어, Cauchy 랜덤 변수가 중앙값으로부터 1000 개 이상의 사 분위수 범위에 놓일 가능성은 작지만 뚜렷한 확률이 있습니다. 정규 랜덤 변수는 중앙값에서 최소 2.67 개의 사 분위수 범위와 거의 같습니다.

변화

코시의 분산은 무한합니다.

편집 : JG는 주석에서 정의되지 않았다고 말합니다. 분산을 값 쌍 사이의 제곱 거리의 절반으로 평균으로 계산하면 둘 다 존재하는 경우 분산과 동일하며 무한대입니다. 그러나 일반적인 정의에 따르면 JG는 정확합니다. 그럼에도 불구하고 n이 커질 때 실제로 수렴하지 않는 샘플 수단과 대조적으로 샘플 크기의 분포는 샘플 크기가 증가함에 따라 계속 커집니다. 스케일은 n에 비례하여 증가하거나, 로그 분산의 분포는 표본 크기에 따라 선형으로 증가합니다. 무한을 산출하는 분산의 버전이 실제로 우리에게 무언가를 말하고있는 것을 고려하는 것이 생산적으로 보인다.]

물론 표본 표준 편차가 존재하지만 표본이 클수록 표본이 커지는 경향이 있습니다 (예 : n = 10에서 중간 표본 표준 편차는 척도 모수 (IQR의 절반)의 3.67 배 근처에 있지만 n =에 있습니다) 100은 약 11.9입니다).

평균

코시 분포는 유한 한 평균도 없습니다. 평균의 적분은 수렴되지 않습니다. 결과적으로 많은 수의 법칙도 적용되지 않습니다. n이 커짐에 따라 표본 평균은 일정량으로 수렴되지 않습니다 (실제로 수렴 할 수있는 것은 없습니다).

실제로 Cauchy 분포의 표본 평균 분포는 단일 관측치 (!)의 분포와 동일합니다. 꼬리는 너무 무겁기 때문에 합계에 더 많은 값을 추가하면 평균을 취할 때 더 큰 분모로 나눌 수있는 정도로 극단적 인 값이 될 가능성이 높습니다.

예측 가능성

Cauchy 분포에서 관측 한 결과에 대해 완벽하게 합리적인 예측 구간을 생성 할 수 있습니다. 위치 및 스케일을 추정하는 데 잘 수행되는 간단하고 상당히 효율적인 추정기가 있으며 대략적인 예측 간격을 구성 할 수 있으므로 적어도 Cauchy 변수는 '예측 가능'합니다. 그러나 꼬리가 매우 먼 거리를 차지하므로 높은 확률 간격을 원할 경우 꼬리가 상당히 넓을 수 있습니다.

분포의 중심을 예측하려는 경우 (예 : 회귀 유형 모델), 이는 어떤 의미에서는 비교적 예측 하기쉽습니다 . Cauchy는 상당히 정점에 도달하므로 (일반적인 척도 측정을 위해 중심에 "배분 된"분포가 많음) 적절한 추정값이있는 경우 중심을 비교적 잘 추정 할 수 있습니다.

예를 들면 다음과 같습니다.

표준 Cauchy 오류 (100 개의 관측치, 절편 = 3, 기울기 = 1.5)와 선형 관계에서 데이터를 생성하고 y 특이 값에 합리적으로 강력한 세 가지 방법으로 회귀선을 추정했습니다. Tukey 3 group line (red), Theil regression (진한 녹색) 및 L1- 회귀 (파란색). Cauchy에서는 그 어느 것도 특히 효율적이지는 않지만보다 효율적인 접근을 위해서는 훌륭한 출발점이 될 것입니다.

그럼에도 불구하고이 3 개는 데이터의 노이즈에 비해 거의 일치하며 데이터가 실행되는 중심에 매우 가깝습니다. 그런 의미에서 코시는 분명히 "예측 가능"하다.

절대 잔차의 중앙값은 임의의 선에 대해 1보다 약간 큽니다 (대부분의 데이터는 추정 된 선에 매우 가깝습니다). 그런 의미에서 코시는 "예측 가능"하다.

Cauchy 오차 및 3 개의 적합 회귀선과 선형 관계

왼쪽 그림에는 큰 특이 치가 있습니다. 데이터를 더 잘 보려면 오른쪽에서 y 축의 스케일을 좁혔습니다.


1
무한한 두꺼운 꼬리와 분산이 관련되어 있습니다.
mavavilj

확실히. 정의되지 않은 평균은 두꺼운 꼬리와도 관련이 있습니다.
Glen_b-복지 모니카

"위치 및 스케일을 추정하는 데 잘 수행되는 간단하고 매우 효율적인 추정기가 있으며 대략적인 예측 간격을 구성 할 수 있습니다"– 참조를 제공 할 수 있습니까?
카를로스시 넬리

의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
gung-모니 티 복원

@Carlos 두 가지 다른 문제가 있습니다-(i) 위치 (적절하게 잘린 평균과 같은)에 대한 간단하고 상당히 효율적인 추정량과 Cauchy의 스케일 , (ii) Cauchy에 적합한 예측 간격을 구성하는 방법. 첫 번째는 이미 현장에서 다루고 있으며 두 번째는 그 자체로 의문의 여지가 있습니다.
Glen_b-복지 주 모니카

1

μσμ±σμ±636.62σ

σ

Cauchy 분포는 본질적으로, 특히 당신이 어떤 형태의 성장을 보이는 곳에서 상당히 나타납니다. 언덕을 굴러 내리는 바위와 같이 물건이 돌아가는 곳에서도 나타납니다. 경매에서 팔린 골동품과 같은 물건에 대한 수익은 아니지만 주식 시장 수익률의 분포가 못생긴 혼합의 핵심 분포로 알 수 있습니다. 골동품에 대한 반품도 평균이나 분산이없는 분포에 속하지만 코시 분포에는 속하지 않습니다. 차이점은 경매 규칙의 차이점에 의해 생성됩니다. NYSE의 규칙을 변경하면 Cauchy 배포가 사라지고 다른 규칙이 나타납니다.

그것이 왜 존재하는지 이해하기 위해, 당신이 매우 많은 입찰자와 잠재적 입찰자에 입찰 자라고 가정하십시오. 주식은 이중 경매로 판매되기 때문에 승자의 저주는 적용되지 않습니다. 균형에서 합리적 행동은 예상 가치에 입찰하는 것입니다. 기대는 평균의 한 형태입니다. 표본 크기가 무한대로 진행됨에 따라 평균 추정치 분포가 정규성으로 수렴됩니다.

아르 자형=+1

주식 시장이 정규 분포 또는 로그 정규 분포를 가져야한다고 생각할 때 주식 시장은 매우 변동성이 있지만, 꼬리가 짙을 것으로 예상되는 경우 예상치 못한 변동은 없습니다.

나는 Cauchy 분포에 대한 베이지안과 Frequentist 예측 분포를 모두 구축했으며 그들의 가정에 따라 잘 작동합니다. 베이지안 예측은 Kullback-Leibler 발산을 최소화합니다. 즉, 주어진 데이터 세트에 대해 예측에서 자연에 도달 할 수있는 거리에 가깝습니다. Frequentist 예측 은 많은 독립적 인 샘플로부터의 많은 독립적 인 예측에 대한 평균 Kullback-Leibler 발산을 최소화합니다 . 그러나 평균 범위에서 기대할 수있는 한 샘플에 대해서는 반드시 성능이 좋은 것은 아닙니다. 꼬리는 수렴하지만 천천히 수렴합니다.

다변량 Cauchy는 훨씬 더 화나게하는 속성을 가지고 있습니다. 예를 들어, 평균이 없기 때문에 분명히 covary 할 수 없지만 공분산 행렬과 유사한 것은 없습니다. 시스템에서 다른 작업이 없으면 Cauchy 오류는 항상 구형입니다. 또한, 난소는 없지만 독립적 인 것은 없습니다. 실제 의미에서 이것이 얼마나 중요한지 이해하려면, 성장하고 있고 서로 교역하는 두 나라를 상상해보십시오. 하나의 오류는 다른 오류와 무관합니다. 내 실수는 실수에 영향을 미칩니다. 한 국가가 미친 사람에 의해 점령되면, 그 미친 사람의 실수는 모든 곳에서 느껴집니다. 반면에 공분산 행렬에서 기대하는 것처럼 효과가 선형 적이 지 않기 때문에 다른 국가에서는 영향을 최소화하기 위해 관계를 끊을 수 있습니다.

이것은 또한 트럼프의 무역 전쟁을 그렇게 위험하게 만듭니다. 유럽 ​​연합이 다른 모든 단일 경제와의 무역을 통해 경제 전쟁을 선포 한 후 세계에서 두 번째로 큰 경제는 전쟁을 선포 한 국가로부터 돈을 빌려서 그 전쟁에 자금을 조달하고 있습니다. 이러한 의존성이 풀리면 아무도 기억력이없는 방식으로 추한 것입니다. 영국 은행이 대서양 무역을 금지 한 잭슨 행정부 이후 우리는 비슷한 문제를 겪지 않았습니다.

Cauchy 분포는 지수 및 S- 곡선 성장 시스템에 나타나기 때문에 매력적입니다. 일상 생활에는 평균이 있고 일반적으로 차이가 나는 밀도로 가득 차 있기 때문에 사람들을 혼동합니다. 잘못된 교훈을 배우기 때문에 의사 결정을 매우 어렵게 만듭니다.


이 답변에서 수학적 속성이 실제 동작에 매핑되는 대담한 방식이 마음에 듭니다. 그러나 (양쪽) 잘린 코시의 모든 순간은 유한하다는 것을 언급해서는 안됩니까?
Alecos Papadopoulos

왼쪽에서만 잘립니다. 공칭 행성 예산 제약은 오른쪽에 확률 론적이며 화폐 시스템은 시스템을 보존하지 않기 때문에 오른쪽에 무한하다.
Dave Harris
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.