(이 분이 아닌) 명목 변수와 숫자 (간격) 또는 서수 변수 사이의 상관 계수


12

나는 이미이 사이트의 모든 페이지를 읽었고 내 문제에 대한 답을 찾으려고했지만 아무도 나에게 맞는 것 같지 않습니다 ...

먼저 내가 작업하는 데이터의 종류를 설명합니다 ...

300 명의 사용자마다 하나씩 여러 도시 이름을 가진 배열 벡터가 있다고 가정 해 봅시다. 또한 각 사용자의 설문 조사에 대한 점수 응답 또는 각 사용자의 연속 값이있는 다른 배열 벡터가 있습니다.

공칭 변수와 숫자 / 연속 또는 순서 변수 사이의 두 변수 간의 상관 관계를 계산하는 상관 계수가 있는지 알고 싶습니다.

인터넷에서 검색했으며 일부 페이지에서는 우발 계수 또는 Cramer 's V 또는 Lambda 계수 또는 Eta를 사용하도록 제안합니다. 이 측정 각각에 대해 공칭 변수와 간격 또는 숫자 변수가있는 데이터에 적용될 수 있다고 말하십시오. 문제는 검색하고 검색하고, 그들 각각을 이해하려고 노력하며, 언젠가 Cramer 's V를 제외하고 이분법적인 공칭 변수가있는 경우 사용하기에 합리적이라는 예를 보거나 작성하는 것입니다. 다른 시간은 데이터 유형 다른 많은 페이지에서는 회귀를 적용하는 것이 옳다고 말합니다.하지만 이런 종류의 데이터에 대해 pearson / spearman과 같은 계수가 있는지 간단히 알고 싶습니다.

또한 도시를 정렬 할 수 없기 때문에 Spearman Correlation coeff를 사용하는 것이 적절하지 않다고 생각합니다.

나는 또한 Cramer'sV와 Eta의 기능을 스스로 만들었습니다 (Malab과 함께 일하고 있습니다) .Eta의 경우 계수가 통계적으로 유의한지 확인하기 위해 p- 값에 대해 이야기하지 않습니다 ...

matlabWorks 사이트에는 eta ^ 2를 계산하라는 멋진 도구 상자가 있지만 필요한 입력 유형을 이해할 수 없습니다.

여기 나와 같은 시험을 한 사람이 있습니까? 내가 사용하는 데이터의 종류를 이해하기 위해 더 자세한 정보가 필요하면 저에게 물어보십시오. 더 잘 설명하려고 노력할 것입니다.


1
Cramérs V는 두 명목입니다. 회귀에 대해 나쁜 점은 무엇입니까? 숫자 변수를 반응으로 사용하여 공칭으로 되돌립니다 (모형 사용). 상기 봐 및 관련 글로벌 F-테스트. 아르 자형2
Michael M

회귀에는 아무런 문제가 없지만 이미 측정 한 바와 같이 상관 계수를 사용하여 이중 검사와 같은 다른 방법으로이를 확인하고 싶습니다. ... 답변에 대한 감사
cristis

"숫자 / 소수자"변수에 대해 구체적으로 언급하지 않았습니다. 그것을 서수로 만드는 이유무엇입니까 ? 숫자?
ttnphns

서수 때문에 측량 테스트에서 나온 변수가 있으므로 범위는 -4,4입니다. 또한 간격으로 생각할 수 있지만 이러한 종류의 측량 변수는 주로 서수로 간주되고 나머지는 숫자로 표시됩니다. 추출 된 기능.
cristis

답변:


18

공칭 대 간격

공칭과 구간 ( "숫자") 변수 사이의 가장 일반적인 "상관"측정은 상관 비율이라고도하는 Eta 이며 일원 분산 분석의 근 R- 제곱과 동일합니다 (p- 값 = 분산 분석). ANTA의 Eta (명목은 독립, 숫자는 종속)는 Pillai의 다변량 회귀 추적 (숫자는 독립 변수, 더미 변수는 종속으로 공칭).

보다 미묘한 척도는 클래스 내 상관 계수 ( ICC )입니다. Eta는 숫자 변수와 관련하여 그룹 간의 차이 (명목 변수로 정의 됨) 만 파악하는 반면 ICC는 동시에 그룹 내의 숫자 값 간의 조정 또는 동의도를 측정합니다. 즉, ICC (특히 원래의 편향되지 않은 "페어링"ICC 버전)는 값의 수준을 유지하는 반면 Eta는 통계 수준 (그룹 평균과 그룹 분산)에서 작동합니다.

공칭 대 서수

명목 변수 와 서수 변수 사이의 "상관 관계"측정에 대한 질문은 명확하지 않습니다. 어려움의 이유는 서수 스케일이 본질적으로 간격 또는 명목 스케일보다 "미스틱"또는 "트위스트"되기 때문입니다. 서수 데이터에 대한 통계 분석이 지금까지 상대적으로 제대로 구성되지 않았다는 것은 놀라운 일이 아닙니다.

한 가지 방법은 순서 데이터 를 순위 로 변환 한 다음 순위가 구간 데이터 인 것처럼 Eta 를 계산 하는 것입니다. 이러한 에타의 p- 값은 Kruskal-Wallis 분석의 p- 값입니다. 이 접근법은 왜 Spearman rho가 두 개의 서수 변수를 상관시키는 데 사용되는지와 동일한 추론으로 인해 보증 된 것으로 보입니다. 이 논리는 "스케일의 간격 너비를 모르는 경우 가능한 단 조성을 선형화하여 Gordian 매듭을 자릅니다. 데이터 순위를 지정하십시오."

또 다른 접근법 (아마도 더 엄격하고 융통성있는)은 순서 변수를 DV로, 명목 변수를 IV로하는 순서 로지스틱 회귀 를 사용하는 것 입니다. 의 제곱근 Nagelkerke의 (회귀의 P-값) 의사의 R 스퀘어는 당신을위한 또 다른 상관 관계 측정 한 것입니다. 순서 회귀 분석에서 다양한 링크 함수를 실험 할 수 있습니다. 그러나이 연관성은 대칭이 아닙니다. 공칭은 독립적 인 것으로 간주됩니다.

또 다른 접근 방식 은 서수 데이터를 두 번째 단락의 순위 대신 간격으로 변환하여 R (즉, Eta )을 최대화 하는 단조로운 변환 을 찾는 것입니다. 이것은 범주 형 회귀입니다 (= 최적 스케일링을 사용한 선형 회귀).

또 다른 방법은 CHAID와 같은 분류 트리 를 예측 변수로 서수 변수 를 사용하여 수행하는 것 입니다. 이 절차는 공칭 예측 및 범주의 범주를 구별하지 않는 인접한 정렬 된 범주 와 함께 묶어집니다 (따라서 이전 방법과 반대입니다). 그런 다음 명목 변수와 명목 변수를 상관시키는 것처럼 Chi-square 기반 연관 측정 (예 : Cramer 's V)에 의존 할 수 있습니다.

그리고 @Michael은 그의 의견에서 Freeman 's Theta 라는 특별한 계수를 제안 합니다.

따라서 우리는 지금까지 이러한 기회에 도달했습니다. (1) 순위를 정한 다음 Eta를 계산합니다. (2) 서수 회귀를 사용하십시오. (3) 범주 형 회귀 사용 (서수 변수를 간격으로 "최적"으로 변환); (4) 분류 트리를 사용한다 ( "최적 적으로"정렬 된 카테고리의 수를 줄인다); (5) 프리먼 세타를 사용하십시오.


3
추신 Jeromy Anglim의 블로그 jeromyanglim.blogspot.ru/2009/10/
ttnphns

2
θ

2
@Michael에게 감사드립니다. 여기에 "자유인의 결사의 척도에 관한 추가 정보" moreno.ss.uci.edu/22.pdf
ttnphns

1
Freeman 's theta 및 통계를 포함하는 R 패키지에 대한 자세한 내용은 이 Cross Validated question을 참조하십시오 .
Sal Mangiafico

@ttnphns 죄송합니다,이 질문에 대답 해주시겠습니까? stats.stackexchange.com/questions/363543/… 감사합니다.
ebrahimi

0

에프에프에스에스이자형이자형이자형나는나는이자형에스/에스에스영형아르 자형2아르 자형

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.