온라인 모듈 내가 하나가되어야한다고 공부하고 결코 비례 데이터와 피어슨 상관 관계를 사용하지합니다. 왜 안돼?
또는 때때로 괜찮거나 항상 괜찮다면 왜 그렇습니까?
온라인 모듈 내가 하나가되어야한다고 공부하고 결코 비례 데이터와 피어슨 상관 관계를 사용하지합니다. 왜 안돼?
또는 때때로 괜찮거나 항상 괜찮다면 왜 그렇습니까?
답변:
이것은 각 관측치에서 여러 변수가 1로 합쳐지는 경우입니다. 내 대답은 직관 수준입니다. 이것은 의도적입니다 (또한 구성 데이터 전문가가 아닙니다).
우리가 보자 IID 우리가 그 합계의 비율로 요약 및 재 계산 (따라서 제로는 상관) 양의 값 변수를. 그때,
each V summing to 1 ( 100%)
실례합니다? 나는 당신을 이해하지 못했습니다. 나는 개별 V에 제한을 두지 않고 단지 분수 일뿐입니다. 그러나 초기 제약 조건은 내 예제에서 Vs를 분수로 바꾸기 전에 0의 상관 관계를 가정한다는 것입니다.
댓글의 비디오 링크는 컴포지션 의 컨텍스트에 대한 컨텍스트를 설정 하며 혼합물 이라고도합니다 . 이 경우 각 성분의 비율의 합은 1이됩니다. 예를 들어, 공기는 질소 78 %, 산소 21 %, 기타 1 % (총 100 %)입니다. 한 구성 요소의 양이 다른 구성 요소에 의해 완전히 결정되면 두 구성 요소는 완벽한 다중 선형 관계를 갖습니다. 에어 예제의 경우 다음이 있습니다.
그럼:
따라서 두 가지 구성 요소를 알고 있으면 세 번째 구성 요소를 즉시 알 수 있습니다.
일반적으로 혼합물에 대한 제약은
이러한 제약으로 인해 요소의 수준은 중요하지 않습니다.
두 구성 요소 간의 상관 관계를 계산할 수 있지만 항상 상호 관련되어 있으므로 유익 하지 않습니다 . 비례 구성으로 측정 된 데이터 분석에서 구성 분석에 대한 자세한 내용을 읽을 수 있습니다 .
비율 데이터가 다른 도메인에서 온 경우 상관 관계를 사용할 수 있습니다. 응답이 LCD 화면에서 죽은 픽셀의 일부라고 가정하십시오. 이를 스크린의 화학 처리 단계에서 사용되는 헬륨 분율과 연관 시키려고 시도 할 수 있습니다.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
분명하지 않다. 당신은 그것을 확장 할 수 있습니까?
이것은 심오한 질문이며, 언급해야 할 미묘한 점이 있습니다. 최선을 다할 것이지만이 주제 ( 비례 : 상대 데이터의 상관 관계에 대한 올바른 대안) 에 대해 게시 한 경우에도 항상 관련 정보 만 포함 된 데이터 분석에 대한 새로운 통찰력에 놀랄 준비가되어 있습니다.
이 스레드에 기여한 사람들이 지적했듯이, 구성 요소 세트가 상수에 합산되도록 제한 될 때 발생 하는 구성 데이터에 적용 할 때 의미가없는 것으로 (일부 원에서) 상관 관계는 악명 높았 습니다 (비율, 백분율, 백만 분의 일 등).
칼 피어슨 (Karl Pearson)은 이와 관련 하여 가짜 상관 이라는 용어를 만들었습니다 . (참고 : Tyler Vigen의 인기있는 스퓨리어스 상관 사이트는 " 상관이 인과 관계를 암시합니다 "오류를 일으키기 때문에 스퓨리어스 상관에 관한 것이 아닙니다 .
Aitchison 's (2003)의 섹션 1.7 구성 데이터 분석에 대한 간결한 안내서 는 왜 상관 관계가 구성 데이터에 대한 부적합한 연관성 측정법인지에 대한 고전적인 설명을 제공합니다 (편의를 위해이 보충 정보에 인용 됨) .
구성 데이터는 음이 아닌 구성 요소 집합이 상수로 합쳐질 때만 발생합니다. 데이터는 상대 정보 만 가지고있을 때마다 구성 적이라고합니다.
상대 정보 만 전달하는 데이터의 상관 관계에 대한 주요 문제 는 결과 해석 에 있다고 생각합니다 . 이것은 단일 변수로 설명 할 수있는 문제입니다. 세계 각국의 "GDP 달러당 도넛 생산량"이라고 가정 해 봅시다. 한 국가의 가치가 다른 국가의 가치보다 높으면
누가 말할 수 있습니까?
물론 사람들이이 스레드에 대해 언급 할 때 이러한 종류의 변수의 상관 관계를 설명 변수로 계산할 수 있습니다 . 그러나 이러한 상관 관계는 무엇을 의미합니까?
나는 같은 질문을했다. biorxiv 에서이 참조가 유용하다는 것을 알았습니다 .
Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"비례 : 상대 데이터의 상관 관계에 대한 유효한 대안"
이 논문의지지 정보 (Lovell, David, et al.; doi : dx.doi.org/10.1101/008417)에서 저자들은 상대적인 존재비 사이의 상관 관계가 어떤 경우에는 정보를 제공하지 않는다고 언급했다. 이들은 두 mRNA 발현의 상대적 풍부도의 예를 제공한다. 도 S2에서, 2 개의 상이한 mRNA의 상대 존재비는 절대 값에서 이들 2 개의 mRNA의 상관이 (음의 점 및 자주색의 점) 음의 관련이 없더라도 완벽하게 음의 상관 관계가있다.
아마 당신을 도울 수 있습니다.