범주 형 데이터를 사용하면 변수가 관련되지 않은 군집이있을 수 있습니까?


19

군집 분석을 설명하려고 할 때 사람들이 변수가 상관되어 있는지 여부와 관련된 것으로 프로세스를 오해하는 것이 일반적입니다. 사람들이 혼란을 극복 할 수있는 한 가지 방법은 다음과 같은 도표입니다.

여기에 이미지 설명을 입력하십시오

이것은 군집이 있는지의 여부와 변수가 관련되어 있는지의 여부의 차이를 명확하게 표시합니다. 그러나 이는 연속 데이터의 차이점 만 보여줍니다. 범주 형 데이터가있는 아날로그를 생각하는 데 문제가 있습니다.

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

우리는 두 개의 명확한 클러스터가 있음을 알 수 있습니다. A와 B 속성을 가진 사람과 그렇지 않은 사람들. 그러나 변수를 보면 (예 : 카이 제곱 테스트) 변수가 명확하게 관련되어 있습니다.

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

위의 연속 데이터가있는 범주 데이터와 유사한 범주 데이터로 예제를 구성하는 방법에 대한 손실이 있습니다. 변수를 관련시키지 않고 순수한 범주 형 데이터로 클러스터를 가질 수도 있습니까? 변수가 두 개 이상의 수준을 가지고 있거나 더 많은 수의 변수를 가지고 있다면 어떻게 될까요? 관측치의 군집화에 변수 간의 관계가 반드시 수반되고 그 반대의 경우에도 범주 형 데이터 만있을 때 (즉, 변수를 대신 분석해야하는 경우) 군집화를 수행 할 가치가 없다는 것을 의미합니까?


업데이트 : 클러스터 분석에 익숙하지 않은 사람에게도 즉시 직관적 인 간단한 예제를 만들 수 있다는 아이디어에만 집중하고 싶었 기 때문에 원래의 질문에서 많은 것을 제외했습니다. 그러나 거리와 알고리즘의 선택에 따라 많은 클러스터링이 필요하다는 것을 알고 있습니다. 더 많은 것을 지정하면 도움이 될 수 있습니다.

피어슨의 상관 관계는 실제로 연속 데이터에만 적합하다는 것을 알고 있습니다. 범주 형 데이터의 경우 범주 형 변수의 독립성을 평가하는 방법으로 카이 제곱 검정 (양방향 우연성 테이블의 경우) 또는 로그 선형 모델 (다중 우연성 테이블의 경우)을 생각할 수 있습니다.

알고리즘의 경우 연속 상황과 범주 형 데이터에 모두 적용 할 수있는 k-medoids / PAM을 사용하는 것을 상상할 수 있습니다. (연속적인 예제 뒤에 의도의 일부는 합리적인 클러스터링 알고리즘이 그러한 클러스터를 감지 할 수 있어야하고 그렇지 않은 경우 더 극단적 인 예제를 구성 할 수 있어야한다는 것입니다.)

거리의 개념에 관해. 나는 순진한 시청자에게는 가장 기본적인 것이기 때문에 유클리드를 연속 예제로 가정했습니다. 범주 형 데이터와 유사한 거리 (가장 즉각적으로 직관적 임)가 간단한 일치라고 가정합니다. 그러나 해결책이나 흥미로운 토론으로 이어지면 다른 거리에 대한 토론에 개방적입니다.


2
범주 형 데이터 클러스터와 같은 것이 있는지 궁금 합니다 . 군집 사이의 분산이 군집 내보다 더 크거나 군집 간의 밀도 차이에 대해 이야기 할 수있는 것은 아닙니다. 따라서 clostest 일치 항목이 빈번한 항목 세트 인 경우 변수가 클러스터와 관련되어 있어야합니다.
Anony-Mousse-복지국 모니카

@ Anony-Mousse, 흥미 롭습니다. 왜 대답으로 발전시키지 않습니까? BTW, 실제로 존재하는 군집을 이미징 할 수 있습니다 (예 : 다양한 수준의 명목 변수에 대해 다른 확률을 제공하는 잠재 연속 변수). 그러나 이것이 당신이 의도 한 것이 아니라고 생각합니다.
gung-Monica Monica 복원

범주 형 분포를 성분이 정규화 된 주파수 인 벡터로 변환 할 수 있습니다. 그런 다음 유클리드 메트릭을 적용 할 수 있습니다. 그러나 유일한 옵션은 아닙니다 : math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdfen.m.wikipedia.org/wiki/Normed_vector_space

@ttnphns, [data-association]태그를 추가 한 것 같습니다 . 그것이 무엇을 나타내는 지 잘 모르겠으며 발췌 / 사용 지침이 없습니다. 이 태그가 정말로 필요합니까? 삭제에 적합한 후보 인 것 같습니다. 우리가 실제로 이력서에 필요하고 그것이 무엇인지 알면 적어도 발췌문을 추가 할 수 있습니까?
gung-모니 티 복원

@ gung 도이 태그가 무엇을 의미하는지 이해하지 못합니다. 질문의 "속성 간의 연관 / 상관"주제 때문에 추가했습니다. Q 또는 태그에서 태그를 자유롭게 삭제할 수 있습니다. 반면에 전체 상관 관계 / 연계 필드를 다루는 태그에 대해 다시 생각할 때입니다. 예를 들어 Pearson 상관 관계에 대해서만 "상관 관계"를 유지해야합니까? "data-association"대신 "variables-association"태그를 새로 만들어야합니까?
ttnphns 2016 년

답변:


11

문제의 오른쪽 위 그림과 같이 상관 관계가없는 스케일 변수가있는 명확한 클러스터 사례를 고려하십시오. 그리고 데이터를 분류하십시오.

여기에 이미지 설명을 입력하십시오

우리는 변수 X와 Y의 스케일 범위를 3 개의 빈으로 세분화하여 이제는 범주 레이블로 취급합니다. 또한 질문은 암묵적으로 주로 질적 데이터에 관한 것이기 때문에 순서가 아닌 명목 형으로 선언합니다. 스폿의 크기는 주파수 교차 테이블 셀의 주파수입니다. 동일한 셀의 모든 경우는 동일한 것으로 간주됩니다.

직관적이고 가장 일반적으로 "클러스터"는 데이터 "공간"에서 스파 스 영역으로 구분 된 데이터 포인트의 응고로 정의됩니다. 처음에는 척도 데이터를 사용했으며 분류 된 데이터의 교차 표에서 동일한 인상을 유지합니다. X와 Y는 이제 범주 형이지만 여전히 상관 관계가 없습니다. 카이-제곱 연관은 거의 0에 가깝습니다. 그리고 클러스터가 있습니다.

그러나 우리는 표에서 순서가 임의 인 명목 카테고리를 다루고 있음을 기억하십시오. 관측 된 카이-제곱 값에 영향을주지 않으면 서 원하는대로 전체 행 및 / 또는 열을 재정렬 할 수 있습니다. 재주문 ...

여기에 이미지 설명을 입력하십시오

... 집단이 사라 졌다는 것을 충족시키기 위해. 4 개의 셀 a1, a3, c1 및 c3은 단일 클러스터로 통합 될 수 있습니다. 따라서 우리는 실제로 범주 형 데이터에 클러스터 가 없습니다 .

셀 a1 및 c3 (또는 a3 및 c1의 경우)은 완전히 유사하지 않습니다. 동일한 속성을 공유하지 않습니다. 데이터에서 클러스터를 형성하기 위해 데이터 a1과 c3을 유도하려면 셀 집합 a3과 c1을 데이터 집합에서 삭제하여 혼란스럽게해야합니다.

여기에 이미지 설명을 입력하십시오

이제 클러스터가 존재합니다. 그러나 동시에 우리는 무관심을 잃었습니다. 표에 나타나는 대각선 구조 는 카이 스타 통계가 0에서 멀어 졌다는 신호입니다.

동정. 상관 관계가없고보다 명확한 클러스터를 동시에 유지하려고합니다. 예를 들어 셀 a3 만 비우기로 결정한 다음 a1 + c1을 클러스터 c3과 반대되는 클러스터로 간주 할 수 있습니다.

여기에 이미지 설명을 입력하십시오

그 작업으로 Chi-square가 0에서 멀어지지 않았습니다 ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... 그러나 클러스터의 상황은 혼동됩니다. 군집 a1 + c1은 부분적으로 동일하거나 부분적으로 다른 경우를 포함합니다. 클러스터가 상대적으로 균질하지 않다는 것 자체가 데이터 세트의 명확한 클러스터 구조에 대한 전제가 아닙니다. 그러나 범주 형 데이터의 문제점은 클러스터 a1 + c1이 더 나을 수 없다는 것입니다 대칭 아날로그 인 클러스터 c1 + c3보다 것이 입니다. 이는 클러스터 솔루션이 불안정 하다는 것을 의미합니다 . 데이터 세트의 사례 순서에 따라 다릅니다. 불안정한 솔루션은 비교적 "클러스터 된"환경이라하더라도 신뢰할 수없는 나쁜 솔루션입니다.

문제를 극복하고 솔루션을 명확하고 안정적으로 만드는 유일한 방법은 데이터를 셀 b3 (또는 b2) 아래로 이동하여 셀 c1에서 셀 c3을 분리하는 것입니다.

여기에 이미지 설명을 입력하십시오

따라서 명확한 클러스터 a1 + c1 대 b3이 있습니다. 그러나 여기 다시 대각선 패턴이 나타나고 테이블의 카이 제곱은 0보다 높은 경계입니다.

결론 . 두 개의 카이-제곱 관련되지 않은 명목 변수와 데이터 사례의 좋은 군집을 동시에 갖는 것은 불가능합니다. 명확하고 안정적인 클러스터는 변수 연관을 유도합니다.

또한 연관이 존재하는 경우 (즉, 대각선 패턴이 존재하거나 재정렬하여 달성 할 수있는 경우) 클러스터가 존재해야합니다. 범주 형 데이터 ( "전부 또는 전무")의 특성으로 인해 반음 및 경계선 조건이 허용되지 않기 때문에 OP의 질문에서 왼쪽 하단과 같은 그림은 범주 형, 명목 형 데이터로 나타날 수 없습니다.

나는 우리가 이변 량 인 점점 더 많은 명목 변수 (단지 두 개가 아닌)를 얻을 것이라고 추측합니다. 카이-제곱과 무관 한 에 따라 군집을 가질 가능성에 더 가까워 생각합니다. 그러나 제로 다변량 카이 제곱은 여전히 ​​클러스터와 호환되지 않을 것으로 예상합니다. 그것은 아직 보여주지 않아야한다.


마지막으로 @ Bey 's (일명 user75138)에 대한 언급은 부분적으로 지원했습니다. 나는 그가 "변수 클러스터가 케이스 클러스터와 독립되어 있습니까?" 이는 보편적 연관 측정이 존재하지 않으며 클러스터의 보편적 인 통계적 정의 가 없기 때문 입니다. 나는 또한 클러스터링 기술을 결정해야한다고 덧붙였다. 클러스터링의 다양한 방법은 "클러스터"가 무엇인지를 다르게 정의합니다. 따라서 전체 진술이 사실 일 수 있습니다.

즉, 그러한 말의 약점은 너무 광범위하다는 것입니다. 공칭 데이터에 대해 거리 측정 / 연관 측정 / 클러스터 방법에 대한 선택이 클러스터 위치와의 상관 관계를 조정할 수있는 여지가 있는지 여부와 장소를 구체적으로 표시해야합니다. 특히, 이진 데이터에 대한 많은 근접 계수가 모두 공칭 데이터와 의미가있는 것은 아니라는 점을 명심해야한다.


업데이트 , 내 시뮬레이션 결과를보고.

양 변수의 범주 수가 3에서 5로 변하고 총 샘플 크기가 300에서 600으로 변하면서, 2 변 또는 3 변의 명목 데이터가 무작위로 생성되었습니다. 생성 된 데이터 세트 (Cramer 's V는 거의 보다 않음).1 ). 또한 3 변량 데이터의 3 방향 카이 제곱 연관 (주 효과 다항식 모형), Pearson 및 Log-likelihood는 낮았으며 절대 유의하지 않았습니다.

아르 자형

결과는 일반적으로 답변 내에 위에 표시된 추론을 지원 합니다. 매우 명확한 군집 은 없었 습니다 (예 : 카이-제곱 연관이 강한 경우 발생할 수 있음). 그리고 다른 군집 기준의 결과는 종종 서로 모순되었습니다 (군집이 정말로 분명 할 때 기대하지는 않습니다).

때때로 계층 적 군집화는 군집화 기준 그림을 통해 관찰 된 것처럼 다소 좋은 k- 클러스터 솔루션을 제공 할 수 있습니다. 그러나 안정성을 테스트하면 안정성이 입증되지 않습니다. 예를 들어이 3 변수 4x4x3데이터

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

완전한 연계 계층 적 방법에 의해 클러스터링 될 때, 주사위 유사성은,이 경우에 3 개의 내부 타당성 판사들 사이에 합의하여 상당히 합리적으로 9 개의 클러스터로 분리 된 것으로 보인다 :

여기에 이미지 설명을 입력하십시오

그러나 순열 된 (case-reordered) 솔루션에 대한 원래 솔루션의 혼동 행렬의 불완전한 희소성에서 볼 수 있듯이 솔루션은 안정적이지 않습니다.

여기에 이미지 설명을 입력하십시오

솔루션이 안정적 이었다면 (데이터가 계속 제공 될 수 있음) 9 클러스터 솔루션을 충분히 설득력있는 솔루션으로 선택했을 것입니다.

로그 유사성 거리를 기반으로 한 클러스터링 (주사 유사성과 반대되는)은 안정적이고 "나쁘지 않은"(내부적으로 유효한) 솔루션을 제공 할 수 있습니다. 그러나 그 이유 는 적어도 SPSS의 2 단계 클러스터에서와 같이 거리는 인구가 많은 클러스터를 장려하고 육성하고 인구가 적은 클러스터를 무시하기 때문입니다. 내부의 밀도가 매우 낮은 내부 클러스터가 필요하지 않습니다 (이것은 빅 데이터를 위해 특별히 설계된 2 단계 클러스터 분석의 "정책"으로 보이며 클러스터를 거의 제공하지 않기 때문에 작은 클러스터는 이상치 인 것처럼 보입니다) . 예를 들어이 2 변수 데이터

여기에 이미지 설명을 입력하십시오

는 안정적으로 표시된 것처럼 TwoStep에 의해 5 개의 클러스터로 결합 될 것이며, 5 개의 클러스터 솔루션은 일부 클러스터링 기준에 의해 판단되는 것처럼 전혀 나쁘지 않습니다. 채워진 4 개의 클러스터는 내부에서 매우 밀도가 높기 때문에 (실제로 모든 경우는 동일 함), 소수의 경우를 포함하는 5 번째 클러스터는 엔트로피가 극도로 높습니다. 실제로는 5- 클러스터가 아닌 12- 클러스터 솔루션이지만 12는 주파수 테이블에있는 셀의 총 수입니다. "클러스터 솔루션"으로서는 사소하고 흥미롭지 않습니다.


+1, 이것이 내가 의심 한 것입니다. 페어 다변량 연관되지 않은 대 연결되지 않은 흥미로운 점이다. 이 문제를보다 광범위하게 고려할 때 순수한 명목 데이터를 클러스터링하려고 할 때 아무런 의미가없는 것입니까? 즉, 연속적인 데이터가 없다면 항상 변수를 분석해야합니까?
gung-Monica Monica 복원

1
@ gung, 당신은 변수 사이의 상관 관계 가 사건의 양극화 동전 ( "diagolness") 의 다른 측면 이라는 최대치를 모르십니까? 이는 연속 데이터에도 최대입니다. 그러나 지속적인 편광은 클러스터를 의미하지 않을 수 있습니다. 범주 형의 경우 의미하는 것처럼 보입니다. 불연속 특성으로 인해. 범주 형 변수가 서로 관련이 있으면 찾을 클러스터가 있습니다. 그러나 더 나은 방법으로 클러스터를 사용하려면 클러스터링 을 수행해야 합니다. 그것은 당신의 위대한 질문에 대한 나의 임시 의견입니다.
ttnphns 2016 년

나는 그것에 익숙하지 않다. 나중에 물어볼지도 몰라 이것은 지금 씹을만한 좋은 정보라고 생각합니다.
gung-Monica Monica 복원

3

아시다시피 상관 관계는 점이 서로 얼마나 가까운지가 아니라 두 변수 사이의 선형 관계를 나타내는 척도입니다. 이것은 상위 4 개의 수치를 설명합니다.

물론 이산 된 실제 값 데이터에 대해 유사한 그래프를 만들 수도 있습니다.

엑스{,,,}아르 자형엑스아르 자형엑스

기하학적 의미에서 클러스터링에 대해 실제로 이야기하기 전에 범주 형 공간에 대한 메트릭을 정의해야합니다.


나는이 답변을 지원하고 @gung과 Bey가 모두 허용한다면 직관적 인 용어로 재구성 할 것입니다. 클러스터 된 데이터는 "클러스터의 거리가 좁지 만 클러스터 사이의 거리가 멀다"로 정의됩니다. 그의 사진에서 OP는 암시 적으로 유클리드 거리를 선택 하여 이러한 군집성에 대한 아이디어를 설명했습니다. 또한 변수 간의 연관 개념을 설명하기 위해 Pearson 상관 관계 또는 이와 유사한 개념을 선택했습니다. 이것들은 많은 대안 중에서 두 가지 특정 / 임의 선택입니다.
ttnphns 2016 년

1
(계속) 나는 "케이스 군집"개념과 "가변 연관성"개념이 직교가 아닌 거리 측정법과 연관성 측정법을 선택할 수 있다고 생각할 수도있다. 그리고 지금은 범주 형 데이터입니다. 두 개념이 독립적 일 수 있는지 또는 연관되어 있는지 여부를 확인 및 표시 하기 전에 범주 형 데이터 포인트에 대한 특정 거리 측정 값과 범주 형 변수에 대한 특정 연관 측정 값을 선택해야합니다. 선택할 수있는 많은 대안이 있습니다! 답은 달라집니다.
ttnphns 2016 년

@ttnphns (+1) 두 가지 주요 선택 인 거리 및 연관 메트릭을 구성한 방법이 마음에 듭니다. 내 설명이 직관적이지 않은지 확실하지 않습니다 ... 거리 개념없이 클러스터를 정의 할 수 없습니다.

@ttnphns, 나는 그것이 Bey에 달려 있다고 생각합니다. 아이디어 중 일부를 자신 만의 답변으로 바꾸지 않겠습니까? 나는 "case clusteredness"와 "variable associations"이 어떤 선택이 주어진 연속적인 데이터에 대해 직교 적이 지 않다는 생각에 흥미가있다. Bey & ttnphns, 나는 거리 및 연관성 측정에 관한 질문에 대한 설명을 추가했지만 원한다면 다른 방향으로 자유롭게 가야합니다. 더 필요한 것이 있으면 알려주세요. 선호하는 것은 질문이 가능한 한 '느슨한'상태로 유지되어 응답자가 다른 방향으로 갈 수있는 유연성을 제공한다는 것입니다.
gung-모니 티 복원

1
@Bey, 물론 범주 형 데이터에 대한 다른 가능한 거리 및 연관성 측정 방법이 많이 있으므로 작동하기에 난해한 것을 자유롭게 제안 할 수 있습니다.
gung-Monica Monica 복원

2

해밍 거리를 고려하십시오 -길이가 동일한 두 스트링 사이의 해밍 거리는 해당 기호가 다른 위치 수입니다. 이 정의에서 우리는 해밍 거리를 기반으로 클러스터가 있고 변수 사이의 상관 관계가없는 데이터를 생성 할 수 있음이 분명해 보입니다.

다음은 Mathematica를 사용한 예입니다.

몇 가지 범주 형 데이터를 만듭니다 (4 개의 문자로 구성된 균일 한 임의 샘플링의 3 개 기호 길이의 시퀀스).

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

변수 간의 관계에 대해 모자이크 플롯을 사용하십시오 (다른 열의 값 쌍에 대한 조건부 확률).

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

여기에 이미지 설명을 입력하십시오

상관 관계가 없음을 알 수 있습니다.

클러스터 찾기 :

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

모든 문자를 정수로 바꾸면이 그림에서 클러스터가 해밍 거리로 어떻게 형성되는지 확인할 수 있습니다.

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

여기에 이미지 설명을 입력하십시오

추가 클러스터링

해밍 거리가 1 인 단어를 연결하여 그래프를 만들어 봅시다.

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

여기에 이미지 설명을 입력하십시오

이제 커뮤니티 클러스터를 찾으십시오.

CommunityGraphPlot[nngr]

여기에 이미지 설명을 입력하십시오

그래프 클러스터와 FindClusters(3을 강제로 찾은) 클러스터 그래프를 비교하십시오 . 우리는 "bac"가 매우 중심적이며 "ad"는 녹색 클러스터에 속할 수 있으며 이는 3D 플롯의 클러스터 1에 해당합니다.

그래프 데이터

다음은 가장자리 목록입니다 nngr.

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

사이트에 오신 것을 환영합니다! 한 쌍의 말 : 코드는 어떤 언어입니까? (그 외에 주석이 달지 않음). 당신은 어떻게 정의 relationship between the variables (correlation)합니까?
ttnphns 2016 년

이것은 흥미 롭다. 불행히도, 나는 Mathematica를 알지 못하며 (및 편집 거리에 익숙하지 않음) 이해하기 위해 이것을 가지고 놀아야합니다. 아직 기회가 없었지만 곧하려고합니다.
gung-Monica Monica 복원

@ gung 나는 R에서 그것을하려고 생각했지만 중요한 부분은 3D 플롯이라고 생각하고 클러스터를 형성하는 데 대한 통찰력을 얻기 위해 올바른 각도로 회전시킵니다. 그런데 좋은 질문입니다!
Anton Antonov

여기 "클러스터"가 있습니다. 그러나 그들은 의미가 있습니까? 다른 클러스터보다 낫습니까? 줄거리에서, 클러스터 1은 꽤 임의적입니다. 그렇다면 왜 클러스터입니까?
익명-무스

1
랜덤 유니폼 (!)으로 생성 된 데이터에는 클러스터가 없어야합니다. "커뮤니티"플롯은 거리를 유지하지 않기 때문에 오해의 소지 가 있습니다. 1- 거리가있는 그래프는 이러한 문제를 강조합니다. 또한 다른 예를 보여줍니다 cda. 죄송합니다.이 "클러스터"를 "구매"하지 않습니다. 데이터는 그것이하도록되어, 균일 하지 클러스터가 있습니다.
익명-무스

2

pairwisemultivariate 연관 에 대한 @ttnphns의 요점 은 잘 취해졌습니다. 이와 관련하여 다변량 프레임 워크로 뛰어 들기 전에 간단한 메트릭스와의 연관성을 입증하는 것이 중요하다는 오래된 예가 있습니다. 다시 말해서, 단순한 쌍 단위 연관 측정이 관계를 보이지 않는다면 다변량 관계가 어떤 것도 보여주지 않을 가능성이 높아집니다. 나는 "불가능하다"라는 단어를 사용하는 것을 꺼려하기 때문에 "증가 할 것 같지 않다"고 말합니다. 또한, 서수 데이터에 대한 단조 Spearman 상관 관계인지, Somer 's D , Kendall 's Tau에다항식 상관 관계, Reshef의 MIC, Szelkey의 거리 상관 관계 등. 이 토론에서는 메트릭 선택이 중요하지 않습니다.

범주 형 정보에서 잠재 구조를 찾기 위해 수행 된 최초의 작업은 50 년대 초와 컬럼비아 사회 학자 Paul Lazersfeld로 거슬러 올라갑니다. 본질적으로, 그는 이후 광범위한 개발과 수정을 보여준 잠재 변수 모델 클래스를 발명했습니다. 먼저, 60 년대 정치 경제학자 제임스 콜먼 (James Coleman)의 잠재적 유권자 선거 성향에 관한 연구로 사회 학자이기도 한 클리포드 클 로그 (Clifford Clogg) 후기의 사회학자인 MELISSA 소프트웨어가 공개적으로 이용 가능한 최초의 잠재 클래스 프리웨어였습니다.

80 년대에, 잠재 클래스 모델은 통계적 혁신의 Latent Gold와 같은 도구의 개발을 통해 순수 범주 정보에서 유한 혼합 모델로 확장되었습니다. 또한 마케팅 과학자 인 빌 딜런 (Bill Dillon)은 잠재 판별 유한 혼합 모델을 피팅하기위한 가우스 프로그램을 개발했습니다. 범주 형 정보와 연속 정보의 혼합에 대한이 접근 방식에 대한 문헌은 실제로 상당히 광범위합니다. 소비자 세분화 및 클러스터링에 이러한 모델이 사용되는 마케팅 과학과 같이 가장 널리 적용되는 분야 외부에서는 잘 알려져 있지 않습니다.

그러나 잠재 클러스터링 및 우발 테이블 분석에 대한 이러한 유한 혼합 모델 접근 방식은 오늘날 대량의 데이터 세계에서 오래된 학교로 간주됩니다. 대규모 우발 사태 테이블 간의 연관성을 찾는 최첨단 기술은 David Dunson과 Duke의 다른 베이지 안에서 개발 한 것과 같은 텐서 모델을 배포하여 얻을 수있는 분해입니다. 다음은 논문과 링크 중 하나의 초록입니다.

우발 사태 테이블 분석은 일반적으로 로그 선형 모델에 의존하며 잠재적 구조 분석은 일반적인 대안을 제공합니다. 잠복 구조 모델은 다변량 범주 형 데이터에 대한 확률 질량 함수의 낮은 순위 텐서 인수 분해로 이어지고, 로그 선형 모델은 희소성을 통해 차원 축소를 달성합니다. 두 패러다임에서 이러한 차원 축소 개념과의 관계에 대해서는 알려진 바가 거의 없다. 우리는 로그 선형 모델의 지원과 관련된 확률 텐서의 음이 아닌 순위에 관한 몇 가지 결과를 도출합니다. 이러한 결과에 의해 동기를 부여하여, 기존의 PARAFAC 및 터커 분해를 연결하여 다변량 범주 형 데이터를 교묘하게 특성화하기위한보다 유연한 프레임 워크를 제공하는 새로운 축소 된 터커 클래스의 텐서 분해를 제안합니다.

https://arxiv.org/pdf/1404.0396.pdf


이것은 흥미로운 정보입니다. 그것이 질문에 어떻게 연결되어 있는지 확실하지 않습니다.
gung-Monica Monica 복원

gung 광범위한 범주의 데이터가 "존재"하고 있는지에 대한 광범위한 논의와 근본적인 질문을 감안할 때, 나의 기여와의 관련성에 대한 귀하의 명확성이 부족합니다. 제 생각에 제공된 정보는 이전에 무시되었던 방법론과 지식 발견의 영역을 밝힙니다. 또한 단순한 수준에서 연관성이없는 경우에 한 쌍에서 다변량 연관으로의 도약에 관한 나의 초기 관찰 (OPs 질문에 명시 적으로 언급 됨)을 지적 할 수 있습니다.
Mike Hunter

@DJohnson, 난 아무 의미가 없습니다. 범주 형 데이터를 군집화하는 잠재 모델이 있습니다 (잠재적 클래스 분석). 나는 위의 의견 에서 그것을 암시했다 . 나는 역사, 연구원 및 소프트웨어에 익숙하지 않았습니다. 그것 참 흥미 롭네. 변수가 연관성을 보이지 않는 명목 데이터에 탐지 가능한 군집이 있는지 여부에 대한 질문에 어떻게 대답하는지 잘 모르겠습니다. 그것이 당신이 얻는 것이라면, 예가 도움이 될 것입니다. 하나 제공 할 수 있습니까?
gung-모니 티 복원

@gung 물론 아닙니다.
Mike Hunter
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.