거리 공분산이 선형 공분산보다 덜 적절한 경우는 언제입니까?


21

방금 브라운 / 거리 공분산 / 상관에 대해 막연하게 소개되었습니다 . 의존성을 테스트 할 때 많은 비선형 상황에서 특히 유용합니다. 그러나 공분산 / 상관 관계가 종종 비선형 / 카오스 데이터에 사용되는 경우에도 자주 사용되지 않는 것 같습니다.

그것은 거리 공분산에 몇 가지 단점이있을 수 있다고 생각합니다. 그렇다면 그것들은 무엇이며 왜 모두가 항상 거리 공분산을 사용하지 않습니까?



비 선형 시계열을 비교하고 가중치와 결합하기 위해 dcov를 사용하고 있음을 읽었습니다. 가중 거리 공분산을 사용하고 있는지 궁금합니다. 가중 벡터를 사용하여 데이터에 다른 가중치를 부여하여 계산합니다. 거리 상관? 나는 그것을하려고 노력하고 있지만 거리 상관 공식에 가중치 벡터를 도입하는 것이 올바른 방법인지 확실하지 않습니다.
user3757561

아니요, @ user3757561 죄송합니다. 상관 관계를 대체하기 위해 거리 상관 관계를 시도한 다음이를 기반으로 가중치를 작성했습니다. 그러나 나는 어쨌든 그것을 사용하지 않았다 ...
naught101

답변:


18

아래 나열된 참고 문헌을 읽은 결과에 따라 거리 공분산에 대한 몇 가지 의견을 수집하려고했습니다. 그러나 나는이 주제에 대해 나 자신을 전문가로 생각하지 않습니다. 의견, 수정, 제안 등을 환영합니다.

이 발언은 원래 질문에서 요청한대로 잠재적 인 단점으로 (강하게) 편향되어 있습니다.

내가 본 것처럼 잠재적 인 단점은 다음과 같습니다.

  1. 방법론은 새로운 것 입니다. 내 생각에 이것이 현재 인기 부족과 관련하여 가장 큰 요소라고 생각합니다. 거리 공분산을 설명하는 논문은 2000 년대 중반에 시작되어 현재까지 진행됩니다. 위에 인용 된 논문은 가장 많은 관심을받은 논문 (hype?)이며 3 살 미만입니다. 대조적으로, 상관 관계와 상관 관계 측정에 관한 이론과 결과는 이미 그 뒤에있는 1 세기가 넘는 일을 해왔다.
  2. 기본 개념은 더 도전적 입니다. 연산 수준에서 Pearson의 제품-모멘트 상관 관계는 미적분학 배경없이 대학 신입생에게 쉽게 설명 할 수 있습니다. 간단한 "알고리즘"관점을 배치 할 수 있으며 기하학적 직관을 쉽게 설명 할 수 있습니다. 대조적으로, 거리 공분산의 경우, 쌍별 유클리드 거리의 곱의 합의 개념조차도 훨씬 더 어려우며 확률 적 과정에 대한 공분산의 개념은 그러한 청중에게 합리적으로 설명 할 수있는 것보다 훨씬 뛰어납니다. .
  3. 계산 상 더 까다 롭습니다 . 시험 통계를 계산하기위한 기본 알고리즘은 와 반대로 샘플 크기 O ( N ) 표준 상관 메트릭. 작은 표본 크기의 경우 이것은 큰 문제가 아니지만 더 큰 표본의 경우 더 중요합니다.O(n2)O(n)
  4. 검정 통계량은 무 분포로도 분포가 없습니다 . 모든 대안에 대해 일관된 검정 통계량의 경우 분포가 적어도 무조건적으로 귀무 가설 하에서 Y 의 기본 분포와 독립적 일 수 있기를 바랍니다 . 샘플 크기가 무한대 인 경향이 있어도 null 하의 분포가 XY 의 기본 분포에 의존하기 때문에 거리 공분산의 경우에는 해당되지 않습니다 . 분포가 균일 의해 제한된다는 사실 χ (2) (1) (A)의 계산이 가능하게 분포 보수적 임계치.XYXYχ12
  5. 거리 상관 관계는 이변 량 정상적인 경우에|ρ| . 이것은 실제로 단점이 아니며 강점으로 볼 수도 있습니다. 그러나 데이터에 대한 이변 량 정규 근사값을 받아들이면 실제로 매우 일반적 일 수 있지만 표준 절차 대신 거리 상관 관계를 사용하면 얻을 수있는 것이 거의 없습니다.
  6. 알 수없는 전원 속성 . 모든 대안에 대해 일관성을 유지한다는 것은 본질적으로 거리 공분산이 일부 대안에 대해 매우 낮은 전력을 가져야한다는 것을 보장합니다. 많은 경우에, 관심있는 특정 대안에 대해 추가적인 힘을 얻기 위해 일반성을 포기할 의향이 있습니다. 원본 논문은 표준 상관 측정법에 비해 높은 전력을 요구하는 몇 가지 예를 보여 주지만, 위의 (1)으로 돌아가서 대안에 대한 거동은 아직 잘 이해되지 않았다고 생각합니다.

반복해서 말하면,이 대답은 아마도 매우 부정적인 것입니다. 그러나 그것은 의도가 아닙니다. 거리 공분산과 관련하여 매우 아름답고 흥미로운 아이디어가 있으며 그것의 상대적인 참신 성은 또한 그것을 더 완전히 이해하기위한 연구 길을 열어줍니다.

참고 문헌 :

  1. GJ Szekely and ML Rizzo (2009), Brownian distance covariance , Ann. Appl. 통계 학자. , vol. 3 번 4, 1236–1265.
  2. GJ Szekely, ML Rizzo 및 NK Bakirov (2007), 거리의 상관 관계에 의한 독립성 측정 및 테스트 , Ann. 통계 학자. , vol. 35, 2769–2794.
  3. R. Lyons (2012), 미터법 공간에서의 거리 공분산 , Ann. 프로 밥. (표시하는).

훌륭한 답변, 감사합니다. 그것의 일부는 내 머리 위에 약간 있지만, 나는 그것을 스스로 해결할 수 있다고 생각합니다. :)
naught101

1
"브라운 거리 공분산"통계 저널 클럽, 36-825 Benjamin Cowley 및 Giuseppe Vinci에 대한 요약 및 토론 참조 2014 년 10 월 27 일 stat.cmu.edu/~ryantibs/journalclub/dcov.pdf
Felipe G. Nievinski

2
O(nlogn)

3

나는 뭔가를 놓칠 수는 있지만 두 변수 사이의 비선형 의존성을 정량화하는 것은 많은 이익을 얻지 못하는 것 같습니다. 관계의 형태를 알려주지는 않습니다. 하나의 변수를 다른 변수에서 예측하는 수단을 제공하지 않습니다. 유추하여 탐색 적 데이터 분석을 할 때 때때로 직선, 2 차, 3 차 등으로 데이터가 가장 잘 모델링되는지 여부를 확인하기위한 첫 번째 단계로 황토 곡선 (로컬 가중치 산포도 평활)을 사용하기도합니다. 그 자체로는 매우 유용한 예측 도구가 아닙니다. 이변 량 모양을 설명하기 위해 실행 가능한 방정식을 찾는 방법에 대한 첫 번째 근사치입니다. 이 방정식은 황토 (또는 거리 공분산 결과)와 달리 확인 모델의 기초를 형성 할 수 있습니다.


나의 목적을 위해, 그것은 대가를 가지고있다. 나는 아무것도 예측하기 위해 dcov ()를 사용하지 않고 앙상블에서 여러 비선형 시계열을 비교하고 의존성에 따라 가중치와 결합합니다. 이 상황에서 dcov ()는 잠재적으로 큰 이점이 있습니다.
naught101

@ naught101 당신은 'combine'이라고 말할 때 어떤 m 광석 정보를 넣을 수 있습니까? 이것은 비선형 의존성에 기반한 가중치 측면에서 흥미롭게 들립니다. 시계열을 그룹으로 분류한다는 의미입니까? 이 시나리오에서 높고 낮은 가중치는 무엇을 강조합니까?
영구차

2
@PraneethVepakomma는 : 나의 대답을 확인 stats.stackexchange.com/questions/562/...
naught101

1
또한 일반적인 형태의 의존성 (예 : 다항식)을 알고있는 경우 결정 계수를 사용하여 의존성의 강도를 정량화 할 수 있습니다 (예 : 다항식 회귀 분석을위한 조정 된 R2 계산
Felipe G. Nievinski
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.