평균 상관 값


20

다른 실험 조건 Y에서 변수가 변수 X에 어떻게 의존 하는지 테스트 하고 다음 그래프를 얻습니다.

여기에 이미지 설명을 입력하십시오

위 그래프의 대시 선은 각 데이터 계열 (실험 설정)에 대한 선형 회귀를 나타내고 범례의 숫자는 각 데이터 계열의 피어슨 상관 관계를 나타냅니다.

나는 사이의 "평균 상관 관계"(또는 "평균 상관 관계를")를 계산하고자 X하고 Y. 단순히 r값을 평균화 할 수 있습니까? "평균 결정 기준", 어떻습니까? 평균을 계산하고 해당 값의 제곱을 취해야 합니까, 아니면 개별 의 평균을 계산해야 합니까?R2rR2

답변:


15

간단한 방법은 범주 형 변수 를 추가 하여 다른 실험 조건을 식별하고 와의 "상호 작용"과 함께 모델에 포함시키는 것입니다 . 즉, 입니다. 이것은 한 번에 다섯 가지 회귀를 모두 수행합니다. 그것의 는 당신이 원하는 것입니다.zxyz+x#zR2

개별 값의 평균을 계산하는 것이 왜 틀릴 수 있는지 확인하기 위해 일부 실험 조건에서 기울기 방향이 반전되었다고 가정합니다. 평균적으로 1과 -1이 0에 가까워지면 적합치의 품질이 반영되지 않습니다. 평균 (또는 고정 변형)의 평균 이 옳지 않은 이유를 확인하려면 대부분의 실험 조건에서 관측치가 두 개뿐이므로 모두 이되지만 한 실험에서 . 거의 1 의 평균 는 상황을 올바르게 반영하지 않습니다.RR2R21R2=0R2


1
내 무지를 용서하지만 답변의 # 기호는 무엇을 의미합니까?
Boris Gorelik

1
나는 당신의 대답이 사용 된 상관 관계의 암시 적 정의에 매우 좋은 것이라고 생각합니다. 그들이 표준화 된 기울기를 의미한다면 (어쩌면 그림에 암시되어 있음)? 이 경우 네거티브와 포지티브를 취소하려고합니다. 샘플 크기 문제로 인해 죽었습니다. 또한 귀하의 의견을 답변으로 옮기십시오.
John

당신이 하시겠습니까 또는 조정 된 R 2 ? R2R2
russellpierce

거기에 당신의 첫 코멘트에서 @ whuber, 당신의 상관 관계는 수 있음을 의미합니다 . 각 경우 의 R 21 이다. (이것은 입력 또는 편집 문제 일 뿐이며 요점을 변경하지는 않지만 오도 될 수 있습니다.)±1R21
Glen_b-복지국 Monica

@rpierce 두 번째 단락에서는 조정 된 를 사용하더라도 아이디어에 아무런 영향을 미치지 않습니다 . 거의 동일 선상에있는 두 점이 아닌 점을 상상 하면됩니다. 그들의 조정 된 R 2 는 임의로 1에 가까울 수 있습니다 . R2R21
whuber

24

Pearson 상관 계수의 경우 일반적으로 Fisher z 변환을 사용하여 r 값 을 변환하는 것이 적절합니다 . 그런 다음 z 값 의 평균을 구하고 평균을 다시 r 값으로 변환하십시오 .

Spearman 계수에도 좋을 것 같습니다.

다음 은 논문 과 위키 백과 항목 입니다.


1
+1; 이 답변은 허용되는 답변보다 더 적절하고 일반적인 것처럼 보이지만 특정 사용 사례에서 r 값이 1 인 경우에는 그렇지 않습니까? 여기서 상관 관계가없는 데이터 포인트를 "추가"할 수있는 황제 로짓과 같은 것이 합리적인가? 그렇다면 어디에 추가합니까? 소스 분포에서 두 개의 임의 변수를 가져 오는 몬테 카를로 시뮬레이션을 수행해야합니까? 또는 r을 1보다 약간 작은 값으로 조정합니까? 얼마나 멀리 조정해야합니까?
russellpierce

3

평균 상관 관계는 의미가 있습니다. 또한 상관 관계 분포를 고려하십시오 (예 : 히스토그램 플롯).

그러나 내가 알기로, 각 개인에 대해 항목 순위와 해당 개인에 대한 해당 항목의 예측 순위가 있으며 개인의 순위와 예측 된 항목 간의 상관 관계를보고 있습니다.n

이 경우, 상관 관계가 알고리즘이 얼마나 잘 예측하고 있는지를 측정하는 최선의 방법이 아닐 수 있습니다. 예를 들어, 알고리즘이 처음 100 개의 항목을 완벽하게 가져오고 다음 200 개의 항목이 완전히 엉망이된다고 상상해보십시오. 최상위 순위의 품질에만 관심이있을 수 있습니다. 이 경우 개인의 순위와 예측 된 순위 간의 절대 차이의 합계를 볼 수 있지만 개인의 최상위 항목 중 하나만 볼 수 있습니다.m


1

알고리즘 성능을 위해 평균 제곱 예측 오류 (MSPE)를 사용하는 것은 어떻습니까? 알고리즘 세트간에 예측 성능을 비교하려는 경우 수행하려는 작업에 대한 표준 접근 방식입니다.


이 게시물 stats.stackexchange.com/questions/17129/… 이 왜이 게시물 과 병합 되었는지 잘 모르겠습니다 . 그들은 실제로 제 의견에 두 가지 다른 질문을합니다. 두 가지 다른 목표가 있습니다.
StatsStudent

1
당신은 맞습니다 : 그들은 다른 질문입니다. 나는 다른 포스트를 다시 열겠다고 투표했다. (어떤 영향이 분명하지는 않지만). 귀하의 의견을 보지 못해서 죄송합니다. 대신 게시물을 신고 한 경우 몇 년 더 빨리 주목을받을 것입니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.