제목에 관해서는 연속 변수와 범주 변수 사이의 "상관 관계"( "B를 알고있을 때 A에 대해 얼마나 많이 알고 있는지"로 정의)를 추정하기 위해 MI 이후에 MI 이후에 상호 정보를 사용하는 것이 좋습니다. 잠시 후에이 문제에 대한 의견을 말씀 드리지만 , 유용한 정보가 포함 된 CrossValidated에 대한이 다른 질문 / 답변 을 읽어 보시기 바랍니다 .
이제 범주 형 변수를 통합 할 수 없으므로 연속 형 변수를 이산해야합니다. 이것은 대부분의 분석을 수행 한 언어 인 R에서 매우 쉽게 수행 할 수 있습니다. 이 cut
함수는 값의 별칭 을 지정하기 때문에 함수 를 사용하는 것을 선호 했지만 다른 옵션도 사용할 수 있습니다. 요점은, 임의의 이산화가 수행되기 전에 "빈 (bin)"(이산 된 상태)의 수를 우선적 으로 결정 해야한다는 것이다.
그러나 주요 문제는 또 다른 문제입니다. MI의 범위는 표준화되지 않은 측정 단위이므로 0에서 ∞ 사이입니다. 그것은 상관 계수로 사용하기가 매우 어렵습니다. 이것은 MI의 표준화 된 버전 인 GCC의 전후에 글로벌 상관 계수를 사용하여 부분적으로 해결 될 수 있습니다 . GCC는 다음과 같이 정의됩니다.
참고 : 공식은 Andreia Dionísio, Rui Menezes & Diana Mendes, 2010의 주식 시장 세계화 분석을위한 비선형 도구로서의 상호 정보에서 나온 것입니다.
GCC의 범위는 0에서 1이므로 두 변수 간의 상관 관계를 쉽게 추정 할 수 있습니다. 문제가 해결 되었습니까? 글쎄요 이 모든 과정은 우리가 이산화 과정에서 사용하기로 결정한 '빈'의 수에 크게 의존하기 때문입니다. 내 실험 결과는 다음과 같습니다.
y 축에는 GCC가 있고 x 축에는 이산화에 사용하기로 결정한 '빈'수가 있습니다. 두 줄은 서로 다른 두 데이터 집합에 대해 수행 한 두 가지 분석을 나타냅니다.
일반적으로 MI와 GCC의 사용은 여전히 논란의 여지가있는 것 같습니다. 그러나이 혼란은 내 편에서 실수 한 결과 일 수 있습니다. 어떤 경우이든 문제에 대한 귀하의 의견을 듣고 싶습니다 (또한 범주 변수와 연속 변수 사이의 상관 관계를 추정하는 다른 방법이 있습니까?).