순위 데이터 (Spearman correlation)에 대한 회귀선을 그리는 것이 "괜찮아"입니까?


12

Spearman 상관 관계를 계산 한 데이터가 있으며이를 게시 용으로 시각화하려고합니다. 종속 변수는 순위가 매겨지고 독립 변수는 순위가 매겨지지 않습니다. 시각화하려는 것은 실제 기울기보다 일반적인 추세이므로 독립성을 평가하고 Spearman 상관 관계 / 회귀를 적용했습니다. 그러나 데이터를 플로팅하고 원고에 삽입하려고 할 때이 웹 사이트 에서이 내용을 우연히 발견했습니다 .

Spearman 순위 상관 관계 분석을 수행 할 때는 설명이나 예측에 회귀선을 거의 사용 하지 않으므로 회귀선에 해당하는 값을 계산하지 마십시오 .

그리고 나중에

선형 회귀 또는 상관 관계와 같은 방식으로 Spearman 순위 상관 관계 데이터를 그래프로 표시 할 수 있습니다. 그러나 그래프에 회귀선을 두지 마십시오 . 순위 상관 관계로 분석했을 때 선형 회귀선을 그래프에 표시하는 것은 잘못된 것입니다.

문제는 회귀선 이 독립성을 평가 하지 않고 Pearson 상관 관계를 계산할 때와 다르지 않다는 것입니다 . 추세는 동일하지만 저널의 컬러 그래픽에 대한 막대한 비용으로 인해 흑백 표현이 사용되었으며 실제 데이터 포인트가 너무 겹쳐서 인식 할 수 없습니다.

물론 두 가지 다른 플롯을 작성 하여이 문제를 해결할 수 있습니다. 하나는 데이터 포인트 (순위)와 회귀 라인 (비 순위)에 대한 것입니다. 그러나 인용 한 소스가 잘못되었거나 문제가있는 것으로 판명되면 내 경우에는 그 문제가 아니라 내 인생을 더 쉽게 만들 것입니다. (또한 이 질문 을 보았지만 도움이되지 않았습니다.)

추가 정보를 편집하십시오.

x 축의 독립 변수는 피처 수를 나타내고 y 축의 종속 변수는 성능에서 비교 알고리즘이 분류 알고리즘 인 경우 순위 알고리즘을 나타냅니다. 이제 평균적으로 비교할 수있는 알고리즘이 있지만 플롯으로 말하고 싶은 것은 다음과 같습니다. "분류기 A가 더 많을수록 더 많은 특징이 있으면 분류기 B가 더 적습니다.

플롯을 포함하도록 2를 편집하십시오.

플롯 된 알고리즘 수와 피처 수 여기에 이미지 설명을 입력하십시오

플롯 된 알고리즘의 수와 순위의 기능 수 여기에 이미지 설명을 입력하십시오

제목에서 질문을 반복하려면 다음을 수행하십시오.

Spearman 상관 관계 / 회귀 데이터의 등급 데이터에 대해 회귀선을 그릴 수 있습니까?


순위에 몇 개의 카테고리가 있습니까? 비례 가정을 테스트 했습니까? 서수 데이터 (예 : 순위)를 연속으로 처리하는 데는 완벽하게 훌륭한 연구원이 많이 있습니다. 때로는 범주가 많으면 의미가 있습니다.
robin.datadrivers

1
7 개의 등급이 있으며 Friedman 테스트에 사용됩니다
Sentry

답변:


10

순위 상관 관계를 사용하여 변수 사이의 단조로운 연관성을 선택할 수 있습니다. 따라서 일반적으로 선을 그리지 않습니다.

랭크 상관을 사용하여 Kendall 또는 Spearman (또는 다른 것)에 관계없이 실제로 숫자 y 대 숫자 x에 라인을 맞추는 것이 합리적 인 상황이 있습니다. 여기 에서 토론 (특히 마지막 줄거리)을 참조하십시오 .

그러나 그것은 당신의 상황이 아닙니다. 귀하의 경우에는 원래 데이터의 산점도를 제시하는 경향이 있습니다 (예 : LOESS).

관계가 단조로울 것으로 기대합니다. 당신은 아마도 단조로운 관계를 추정하고 계획하려고 할 것입니다. [에 R-기능이 논의있다 여기에 등장 회귀에 맞게 할 수 -. 예는 등장 성이 단봉 아니지만, 함수가 등장 맞는 작업을 수행 할 수 있습니다]

다음은 내가 의미하는 종류의 예입니다.

여기에 이미지 설명을 입력하십시오

플롯은 x와 y 사이의 단조 관계를 보여줍니다. 빨간색 곡선은 황토 평활 (이 경우 R에 의해 생성됨 scatter.smooth)이며, 단조로운 것으로 나타납니다. 걱정할 필요가 없었습니다.

여기에 이미지 설명을 입력하십시오
단조 관계를 나타내는 rank (y) vs rank (x)의 플롯. 녹색 선은 순위 (x)에 대한 황토 곡선 적합 값의 순위를 나타냅니다.

x와 y의 순위 간의 상관 관계 (즉, Spearman 상관 관계)는 0.892로 단조로운 연관 관계입니다. 마찬가지로, (montonic) fit loess-smoothed curve ( )와 y- 값 사이의 Spearman 상관 관계도 0.892 입니다. [x의 단조 증가 함수 인 곡선은 모두 녹색 선에 해당하기 때문에 이것은 놀라운 일이 아닙니다. 녹색 선은 rank (x)와 rank (y) 사이의 회귀선이 아니지만 원래 그림의 단조로운 맞춤에 해당하는 선입니다. 순위가 매겨진 데이터의 '회귀선'은 1이 아니라 기울기가 0.892이므로 조금 더 평평합니다.]y^

rank (Y) vs X 이외의 것을 표시하지 않으면 줄거리에 선을 사용하지 않는 것이 좋습니다. 내가 볼 수있는 한, 그들은 상관 계수보다 많은 가치를 전달하지 않습니다. 이미 트렌드에만 관심이 있다고 말했습니다.

[ 순위 -y 대 순위 -x 플롯에 회귀선을 표시 하는 것이 잘못되었음을 알지 못합니다 . 해석이 어려울 수 있습니다.]


감사합니다. 귀하의 답변은 훌륭하고 잘 설명되어 있습니다. 그러나 중요한 정보를 생략했을 수도 있습니다. 내가 제공 한 추가 정보로 여전히 유효합니까? 오늘 직장 PC에있을 때 그래프가 나중에옵니다.
Sentry

내 업데이트를 살펴보고 그 중 어느 것이 가치가 있다고 생각하는지 확인하십시오.
Glen_b-복지 주 모니카

예, 그것은 가치가 있지만 일반적으로 더 가치가 있습니다. 또한 "잘못"이 줄거리를 해석하기가 어렵다는 데 동의합니다. 나는 트렌드 를 보여주고 싶다고 말하더라도 사람들이 항상 지형지 물에서 순위 를 예측 하고 싶다고 가정 할까 두려워합니다 .
Sentry

당신의 음모를 보면 --- 당신은 순위를 보여 주지만, 순위에 기초한 원래의 성과 척도가 있습니까?
Glen_b-복지 주 모니카

예, 그렇습니다. 그러나 여기서 사용할 수는 없습니다. 내 연구의 초점은 Friedman 테스트를 사용하여 알고리즘을 비교하는 것입니다. 성능 범위가 매우 다른 여러 데이터 세트가 있으므로 여기에서 비교하는 것만 흥미 롭습니다.
센트리

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.