실루엣 너비가 낮 으면 데이터에 기본 구조가 거의 없음을 의미합니까?

나는 시퀀스 분석을 처음 접했고, Optimal Matching 기반 비 유사성 매트릭스의 군집 분석에서 평균 실루엣 폭 (ASW)이 낮 으면 (약 25) 어떻게 반응하는지 궁금합니다. 시퀀스를 클러스터링 할 수있는 기본 구조가 거의 없다고 결론을내는 것이 적절합니까? 다른 클러스터 품질 측정 기준에 따라 낮은 ASW를 무시할 수 있습니까 (아래에 붙여 넣었습니다)? 또는 서열 분석 또는 후속 군집 분석 중에 이루어진 선택이 낮은 ASW 수를 담당 할 가능성이 있습니까?

모든 제안을 부탁드립니다. 감사.

더 많은 컨텍스트가 필요한 경우 :

나는 20 대 사람들 사이에서 624 개의 근무 시간 불일치 (즉, 일주일에 일하기를 선호하는 시간과 실제 일하는 시간의 수 사이의 불일치)를 조사하고 있습니다. 내가 조사하고있는 모든 서열의 길이는 10입니다. 내 서열 객체에는 5 가지 상태가 있습니다 (M = 더 많은 시간을 원합니다, S = 같은 시간을 원합니다, F = 더 적은 시간을 원합니다, O = 노동력이 없으며 U = 실업자 ).

ASW 결과가 다양한 접근법 조합에 따라 어떻게 달라지는 지 체계적으로 설명하지 않았습니다. 여전히, 나는 낮은 중간 비용의 중간 비용 (최대 대체 비용의 1.1과 .6-타이밍보다 이벤트 순서에 더 관심이 있음)과 다른 클러스터링 절차 (와드, 평균 및 pam)를 시도했습니다. 저의 전반적인 인상은 ASW 수치가 여전히 낮다는 것입니다.

아마도 낮은 ASW 결과가 의미가있을 것입니다. 나는이 주들이 다양한 순서로 나타날 것으로 기대하며, 주들이 반복 될 수있다. 중복 관측 값을 제거하면 N이 624에서 536으로 낮아집니다. 데이터를 연구하면 실제로는 매우 다른 것으로 생각할 수있는 다양성과 순서가 상당히 다양하다는 것을 알 수 있습니다. 불일치, 불일치가 있거나없는 것 사이에서 앞뒤로 진동. 아마도 명확하게 구별 된 군집의 부족은 흥미로운 변형의 부족과 같지 않습니다. 그럼에도 불구하고 약한 클러스터 결과는 시퀀스를 요약 할 수있는 좋은 방법없이 나를 떠날 것 같습니다.

indel이 2의 대체 비용의 .1로 설정된 Ward의 방법의 결과이 통계는 6 개의 클러스터 솔루션이 양호 할 수 있음을 시사합니다. 그러나 ASW는 적습니다. 적어도 합당한 수의 군집 (2 또는 3이 너무 적음)이있는 솔루션의 경우에는 적습니다.

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

clustering traminer

— 제레미
소스

ASW는 클러스터링 솔루션의 일관성 측정입니다. ASW 값이 높으면 군집이 균일하고 (모든 관측치가 군집 중심에 가까워짐) 잘 분리되어 있음을 의미합니다. Kaufmann and Rousseuw (1990)에 따르면 0.25 미만의 값은 데이터가 구조화되지 않았 음을 의미합니다. 0.25에서 0.5 사이의 데이터는 구조화 될 수 있지만 인공물 일 수도 있습니다. 이 값은 표시 용이므로 결정 임계 값으로 사용해서는 안됩니다. 이 값들은 이론적으로 정의 된 것이 아니며 (일부 p- 값을 기준으로하지는 않음) 저자들의 경험을 바탕으로합니다. 따라서 이러한 낮은 ASW 값에 따르면 데이터가 구조화되지 않은 것으로 보입니다. 군집 분석의 목적이 단지 설명적일 경우, 가장 두드러진 패턴 중 일부 (그러나 일부) 만 드러 낼 수 있다고 주장 할 수 있습니다. 하나,

"클러스터 당"ASW 값을 살펴볼 수도 있습니다 (이 기능으로 제공됨 wcClusterQuality). 일부 클러스터는 잘 정의되어 있고 일부는 "스퓨리어스"(ASW <0) 일 수 있으며 전체 ASW 값이 낮아질 수 있습니다.

부트 스트랩 전략을 사용하면 더 나은 힌트를 얻을 수 있습니다. R에서는 clusterboot패키지 의 기능 fpc을이 목적으로 사용할 수 있습니다 (도움말 페이지 참조). 그러나 가중치 데이터에는 작동하지 않습니다. 귀하의 데이터가 가중치가 없다면 시도해 볼 가치가 있다고 생각합니다.

마지막으로 데이터와 분류를 자세히 살펴볼 수 있습니다. 아마도 카테고리가 너무 불안정하거나 제대로 정의되지 않았을 수 있습니다. 그러나 여기서는 그렇지 않습니다.

당신이 말했듯이, "명확하게 차별화 된 군집의 부족은 흥미로운 변화의 부족과 같은 것이 아닙니다". 불일치 분석과 같은 시퀀스의 가변성을 분석하는 다른 방법이 있습니다. 이 방법을 사용하면 시퀀스와 설명 요소 간의 연결을 연구 할 수 있습니다. 예를 들어, 시퀀스 회귀 트리 (TraMineR 패키지의 "seqtree"기능)를 만들려고 할 수 있습니다.

— 마티아스 스튜 더
소스