비율 데이터에 대해 피어슨 상관 관계를 수행하는 것이 왜 좋지 않습니까?


10

온라인 모듈 내가 하나가되어야한다고 공부하고 결코 비례 데이터와 피어슨 상관 관계를 사용하지합니다. 왜 안돼?

또는 때때로 괜찮거나 항상 괜찮다면 왜 그렇습니까?


3
이것이 무엇이며 어떤 맥락에서 말합니까? 그들이 매우 제한된 상황에 대해 이야기하지 않는 한 "절대"는 너무 강해 보인다. 그것을 쓴 사람이 단순히 틀렸을 수도 있지만, 상황 이 없다면 어떻게 추측해야할까요?
Glen_b-복지 주 모니카

2
온라인 모듈은 독점적이며 연결할 수 없습니다. 그러나 australianbioinformatics.net/the-pipeline/2013/3/19/… 같은 내용의 비디오를 발견했습니다 . 내가 본 모듈과이 비디오는 상관 비율이 허용되는 컨텍스트가 없음을 나타냅니다.
user1205901-복원 Monica Monica

4
"절대"는 너무 강하다. 비율, 특히 적은 수를 기준으로하는 비율과 관련된 상관 계수를 해석하는 데주의해야 할 이유가 있습니다. 그러나 이러한 이유를 뒷받침하는 동일한 분석은 비율이 많은 수를 기반으로하고 비율이 0 또는 1 에서 "충분히 멀리"있을 1때 상관 계수에 문제가 없음을 보여줍니다. 또한, 하나는 수 항상 A와 (두 구성 요소가 변화 전시) 짝 데이터의 집합에 대한 상관 계수를보고 요약 (설명) 통계.
whuber

답변:


6

이것은 각 관측치에서 여러 변수가 1로 합쳐지는 경우입니다. 내 대답은 직관 수준입니다. 이것은 의도적입니다 (또한 구성 데이터 전문가가 아닙니다).

우리가 보자 IID 우리가 그 합계의 비율로 요약 및 재 계산 (따라서 제로는 상관) 양의 값 변수를. 그때,

  • 두 개의 변수 V1 V2 의 경우, V1이 자유롭게 변한다고 말하면 V2는 자유의 여지가없고 (V1 + V2 = 일정한 이후) 완전히 고정됩니다. V1이 클수록 V2가 작을수록 V1이 작을수록 V2가 커집니다. 그들의 상관 관계는 이지만 항상 그렇습니다.1
  • 3 개의 변수 V1 V2 V3 의 경우, V1이 자유롭게 변한다고 말하면 V2 + V3이 고정됩니다. 그들은 평균에 있습니다 : 그 내부 (V2 + V3) 두 변수의 각 아직도 부분적으로 자유롭게 말할 수있는 전체 총 고정, 각 고정 시간. 따라서 세 가지 변수 중 하나가 비어있는 것으로 간주되면 (V1을 취한 것처럼) 나머지 두 변수는 고정됩니다. 따라서 이들 간의 상관 관계는 입니다. 이것은 예상되는 상관 관계입니다. 샘플마다 다를 수 있습니다.1/21/20.5
  • 같은 이유로 4 개의 변수 V1 V2 V3 V4의 경우, 우리가 4 개 중 하나를 무료로 취하면 나머지 중 하나는 고정 될 것으로 예상됩니다 . 따라서 네 쌍의 한 쌍 사이 의 예상 상관 관계는 고정 된 만큼 자유롭고 입니다.1/1/0.333
  • (초기 iid) 변수의 수가 증가함에 따라 예상되는 페어 와이즈 상관 관계는 음에서 으로 증가 하고 샘플마다 차이가 커집니다.0

그러나 관심은 V1, V2 쌍에 있으며 각 V는 1 (100 %)이지만 각 V는 분수를 제외하고는 개별 V에 제한이 없습니다.
Nick Cox

each V summing to 1 ( 100%)실례합니다? 나는 당신을 이해하지 못했습니다. 나는 개별 V에 제한을 두지 않고 단지 분수 일뿐입니다. 그러나 초기 제약 조건은 내 예제에서 Vs를 분수로 바꾸기 전에 0의 상관 관계를 가정한다는 것입니다.
ttnphns

각 V의 값이 1 ( "수직")로 합산되었다는 의미입니까? 아니요, 저는 변수 전체에 걸쳐 "독립적으로"의미했습니다. 그러나 불행히도 OP는 그들의 질문에 대한 요점을 밝히지 않았습니다. 그래서 나는 그것을 가져갔습니다.
ttnphns

예; 즉, 여기에서 일반적으로 의미하는 바는 생각하지만 그 질문은 특히 명확하지 않습니다.
닉 콕스

1
@ttnphns 나는 비율로 측정 된 두 변수를 Pearson 상관 관계로해서는 안된다는 진술을 보았습니다. OP를 편집하여 'never'라는 단어를 강조 표시하여이를 명확하게하려고했습니다. 동영상은 제목에 동일한 내용을 표시하지만 ( '비율을 상관시키지 마세요!') 구성 데이터의 맥락에서만 설명합니다. 소스가 Pearson 상관 관계를 어떤 컨텍스트의 비율 데이터에도 사용해서는 안된다고 명시했기 때문에 의도적으로 컨텍스트를 정의하지 않은 상태로 두었습니다. 그러나 내 질문에 대한 대답은 "일부 상황을 제외하고는 관련 비율이 좋습니다."입니다.
user1205901-복원 Monica Monica

10

댓글의 비디오 링크는 컴포지션 의 컨텍스트에 대한 컨텍스트를 설정 하며 혼합물 이라고도합니다 . 이 경우 각 성분의 비율의 합은 1이됩니다. 예를 들어, 공기는 ​​질소 78 %, 산소 21 %, 기타 1 % (총 100 %)입니다. 한 구성 요소의 양이 다른 구성 요소에 의해 완전히 결정되면 두 구성 요소는 완벽한 다중 선형 관계를 갖습니다. 에어 예제의 경우 다음이 있습니다.

엑스1+엑스2+엑스=1

그럼:

엑스1=1엑스2엑스

엑스2=1엑스1엑스

엑스=1엑스1엑스2

따라서 두 가지 구성 요소를 알고 있으면 세 번째 구성 요소를 즉시 알 수 있습니다.

일반적으로 혼합물에 대한 제약은

나는=1엑스나는=1

이러한 제약으로 인해 요소의 수준은 중요하지 않습니다.엑스나는

두 구성 요소 간의 상관 관계를 계산할 수 있지만 항상 상호 관련되어 있으므로 유익 하지 않습니다 . 비례 구성으로 측정 된 데이터 분석에서 구성 분석에 대한 자세한 내용을 읽을 수 있습니다 .

비율 데이터가 다른 도메인에서 온 경우 상관 관계를 사용할 수 있습니다. 응답이 LCD 화면에서 죽은 픽셀의 일부라고 가정하십시오. 이를 스크린의 화학 처리 단계에서 사용되는 헬륨 분율과 연관 시키려고 시도 할 수 있습니다.


나는 그 작곡이 단지 예일 뿐이라고 잘못 생각했다. 따라서 컴포지션이 '강제'상관 관계가 존재하지 않는 상황이 아니면 상관 관계 비율이 일반적으로 문제가 없다고 말하는 것이 공정합니까?
user1205901-복원 Monica Monica

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship분명하지 않다. 당신은 그것을 확장 할 수 있습니까?
ttnphns

또한이 답변을 이해하지 못합니다. 3 변수 예에서 각각은 2 개의 다른 변수에 의해 "결정"되지만 Pearson 상관 관계는 하나의 변수와 관련된 변수 하나만 분석합니다. 예를 들어, 질소 대 산소를 보면 ((질소, 산소) 데이터 세트 [(0.78, 0.21), (0.20, 0.41), (0.44, 0.44)]를 가질 수 있으며 유효한 상관 계수를 수행 할 수 있습니다. 해당 데이터에 대한 계산 (그리고 확실히 선형이 아님). 피어슨 상관 계수는 "기타"에 대해 알지 못하거나 신경 쓰지 않습니다.
Jason C

3
일종의 메타 주석으로서, 나는 당신이 그것을 제안한다고 주장하는 것이 아니라 통계적 포인트에 대한 권위로 인용 할 수없는 자료를 볼 것으로 기대하지 않습니다. 따라서 한 수준에서 간단합니다. 구성 데이터 분석에 대한 문헌이 있습니다. 나는 전문가가 아니기 때문에 상관 관계에 대해 가장 권위있는 것을 말할 수는 없지만 경고는 과장된 것입니다. 상관 관계를 설명하는 데 도움이 될 수 있습니다. 총계의 제약으로 인해 추론이 복잡하다는 것입니다.
Nick Cox

픽셀 수가 동일한 LCD 화면에서 측정 값을 수집하고 프로세스의 가스 압력이 일정하게 유지되면 "불완전 픽셀의 비율"이 좋을 것 같습니다. 그러나 일단이 비율의 분모가 바뀌기 시작하면 누가 헬륨의 영향을 알 수 있습니까?
David Lovell

5

이것은 심오한 질문이며, 언급해야 할 미묘한 점이 있습니다. 최선을 다할 것이지만이 주제 ( 비례 : 상대 데이터의 상관 관계에 대한 올바른 대안) 에 대해 게시 한 경우에도 항상 관련 정보 만 포함 된 데이터 분석에 대한 새로운 통찰력에 놀랄 준비가되어 있습니다.

이 스레드에 기여한 사람들이 지적했듯이, 구성 요소 세트가 상수에 합산되도록 제한 될 때 발생 하는 구성 데이터에 적용 할 때 의미가없는 것으로 (일부 원에서) 상관 관계는 악명 높았 습니다 (비율, 백분율, 백만 분의 일 등).

칼 피어슨 (Karl Pearson)은 이와 관련 하여 가짜 상관 이라는 용어를 만들었습니다 . (참고 : Tyler Vigen의 인기있는 스퓨리어스 상관 사이트는 " 상관이 인과 관계를 암시합니다 "오류를 일으키기 때문에 스퓨리어스 상관에 관한 것이 아닙니다 .

Aitchison 's (2003)의 섹션 1.7 구성 데이터 분석에 대한 간결한 안내서 는 왜 상관 관계가 구성 데이터에 대한 부적합한 연관성 측정법인지에 대한 고전적인 설명을 제공합니다 (편의를 위해이 보충 정보에 인용 됨) .

구성 데이터는 음이 아닌 구성 요소 집합이 상수로 합쳐질 때만 발생합니다. 데이터는 상대 정보 만 가지고있을 때마다 구성 적이라고합니다.

상대 정보 만 전달하는 데이터의 상관 관계에 대한 주요 문제 는 결과 해석 에 있다고 생각합니다 . 이것은 단일 변수로 설명 할 수있는 문제입니다. 세계 각국의 "GDP 달러당 도넛 생산량"이라고 가정 해 봅시다. 한 국가의 가치가 다른 국가의 가치보다 높으면

  • 그들의 도넛 생산이 더 높습니까?
  • 그들의 GDP는 더 낮습니까?

누가 말할 수 있습니까?

물론 사람들이이 스레드에 대해 언급 할 이러한 종류의 변수의 상관 관계를 설명 변수로 계산할 수 있습니다 . 그러나 이러한 상관 관계는 무엇을 의미합니까?


3

나는 같은 질문을했다. biorxiv 에서이 참조가 유용하다는 것을 알았습니다 .

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"비례 : 상대 데이터의 상관 관계에 대한 유효한 대안"

이 논문의지지 정보 (Lovell, David, et al.; doi : dx.doi.org/10.1101/008417)에서 저자들은 상대적인 존재비 사이의 상관 관계가 어떤 경우에는 정보를 제공하지 않는다고 언급했다. 이들은 두 mRNA 발현의 상대적 풍부도의 예를 제공한다. 도 S2에서, 2 개의 상이한 mRNA의 상대 존재비는 절대 값에서 이들 2 개의 mRNA의 상관이 (음의 점 및 자주색의 점) 음의 관련이 없더라도 완벽하게 음의 상관 관계가있다.

아마 당신을 도울 수 있습니다.


2
당신의 제안에 감사드립니다. 나는 그것을 명확하게하지 않았다. 이 논문의 정보를지지함에있어 (Lovell, David, et al.; doi : dx.doi.org/10.1101/008417 ), 저자들은 상대적인 존재비 사이의 상관 관계가 어떤 경우에는 정보를 제공하지 않는다고 언급했다. 이들은 두 mRNA 발현의 상대적 풍부도의 예를 제공한다. 도 S2에서, 2 개의 상이한 mRNA의 상대 존재비는 절대 값에서 이들 2 개의 mRNA의 상관이 음이 아니더라도 (녹색 점 및 자주색 점), 완벽하게 음의 상관 관계가있다.
고소

@shu 어쩌면 이 기사가 비슷한 문제를 겪고 도움을 주 었는지 말할 수있을 것입니다. 붙여 넣기 링크는 답 이 아니므 로 조금 더 자세히 설명해주세요. 그 이유는 또한 링크가 죽기 때문에 나중에 누군가에게 답이 도움이되기를 원한다면 일관성있게 만들어야합니다. 물론 답변에 추가 로 참조를 제공하는 것은 좋은 습관입니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.