상관 매트릭스에서 상관의 통계적 유의성을 나타 내기위한 상관 계수의 임계 값


10

나는 455 개의 데이터 포인트를 포함하는 데이터 세트의 상관 행렬을 계산했으며, 각 데이터 포인트에는 14 개의 특성이 있습니다. 따라서 상관 행렬의 차원은 14 x 14입니다.

두 특성 사이에 유의 한 상관 관계가 있음을 나타내는 상관 계수 값에 대한 임계 값이 있는지 궁금합니다.

나는 -0.2에서 0.85 사이의 값을 가지고 있으며 중요한 것은 0.7보다 큰 것들이라고 생각하고있었습니다.

  • 임계 값에 대해 고려해야하는 상관 계수에 대한 일반적인 값이 있습니까? 아니면 조사중인 데이터 유형에 따라 상황에 따라 달라 집니까?


@ user603 Good catch : 실제로 같은 질문입니다. 여기서 중요한 혁신은 중요한 상관 관계에 대한 테스트가 "데이터 유형"(읽기 : 데이터 배포)에 의존하는지 여부를 묻는 것입니다. 답변이 오래된 영역을 넘어가는 대신이 측면에 초점을 맞추기를 바랍니다.
whuber

답변:


8

상관 관계에 대한 유의성 검정

귀무 가설이 참이라고 가정하면 표본 상관보다 크거나 큰 상관 관계를 얻을 확률을 나타내는 개별 상관 관계에 적용 할 수있는 통계적 유의성 검정이 있습니다.

핵심은 통계적으로 유의 한 상관 계수를 구성하는 요소가 다음에 따라 달라진다는 것입니다.

  • 샘플 크기 : 샘플 크기가 클수록 임계 값이 작아집니다.
  • alpha : 종종 .05로 설정되며, 알파가 작을수록 통계적 유의성에 대한 임계 값이 높아집니다.
  • 단측 / 양측 테스트 : 나는 당신이 양측을 사용하고 있다고 생각합니다. 아마도 이것이 중요하지 않습니다.
  • 상관 계수 유형 : Pearson 's를 사용하고 있다고 추측합니다.
  • x와 y의 분포 가정

일반적인 상황에서 피어슨의 상관 관계를 사용하여 양측 검정을 사용하여 알파가 .05이고 정규성이 적어도 적절한 근사 인 경우 컷오프에 영향을 미치는 주요 요인은 표본 크기입니다.

임계 값

질문을 해석하는 또 다른 방법은 상관 관계가 통계적으로 유의한지 여부가 아니라 실제로 중요한지에 관심이 있다는 것을 고려하는 것입니다.

일부 연구자들은 상관 계수의 의미를 해석하기위한 경험 법칙을 제공했지만 이러한 법칙은 도메인에 따라 다릅니다.

다중 유의성 검정

k(k1)/2k14(13)/2=9191.05=4.55

@ user603이 지적했듯이 이러한 문제는이 이전 질문 에서 잘 논의되었습니다 .

일반적으로 상관 관계 매트릭스를 해석 할 때 더 높은 수준의 구조에 중점을 두는 것이 유용하다는 것을 알았습니다. 이것은 상관 행렬의 일반적인 패턴을보고 비공식적 인 방식으로 수행 할 수 있습니다. 이는 PCA 및 요인 분석과 같은 기술을 사용하여보다 공식적으로 수행 할 수 있습니다. 이러한 접근 방식은 다중 유의성 검정과 관련된 많은 문제를 피합니다.


1

한 가지 옵션은 시뮬레이션 또는 순열 테스트입니다. 데이터의 분포를 알고 있으면 해당 분포에서 시뮬레이션 할 수 있지만 모든 관측 값은 독립적입니다. 분포를 모르는 경우 각 변수를 서로 독립적으로 치환 할 수 있으며 각 변수의 동일한 한계 분포를 제공하지만 상관 관계는 제거됩니다.

위의 (샘플 크기와 행렬 크기를 동일하게 유지) 전체 횟수 (10,000 정도)를 수행하고 최대 절대 상관 관계 또는 관심있는 다른 높은 Quantile을 살펴보십시오. 이를 통해 귀무 가설을 통해 실제 관측 된 상관의 최대 값 (및 기타 높은 관심 대상)을 비교할 수 있습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.