나는 시퀀스 분석을 처음 접했고, Optimal Matching 기반 비 유사성 매트릭스의 군집 분석에서 평균 실루엣 폭 (ASW)이 낮 으면 (약 25) 어떻게 반응하는지 궁금합니다. 시퀀스를 클러스터링 할 수있는 기본 구조가 거의 없다고 결론을내는 것이 적절합니까? 다른 클러스터 품질 측정 기준에 따라 낮은 ASW를 무시할 수 있습니까 (아래에 붙여 넣었습니다)? 또는 서열 분석 또는 후속 군집 분석 중에 이루어진 선택이 낮은 ASW 수를 담당 할 가능성이 있습니까?
모든 제안을 부탁드립니다. 감사.
더 많은 컨텍스트가 필요한 경우 :
나는 20 대 사람들 사이에서 624 개의 근무 시간 불일치 (즉, 일주일에 일하기를 선호하는 시간과 실제 일하는 시간의 수 사이의 불일치)를 조사하고 있습니다. 내가 조사하고있는 모든 서열의 길이는 10입니다. 내 서열 객체에는 5 가지 상태가 있습니다 (M = 더 많은 시간을 원합니다, S = 같은 시간을 원합니다, F = 더 적은 시간을 원합니다, O = 노동력이 없으며 U = 실업자 ).
ASW 결과가 다양한 접근법 조합에 따라 어떻게 달라지는 지 체계적으로 설명하지 않았습니다. 여전히, 나는 낮은 중간 비용의 중간 비용 (최대 대체 비용의 1.1과 .6-타이밍보다 이벤트 순서에 더 관심이 있음)과 다른 클러스터링 절차 (와드, 평균 및 pam)를 시도했습니다. 저의 전반적인 인상은 ASW 수치가 여전히 낮다는 것입니다.
아마도 낮은 ASW 결과가 의미가있을 것입니다. 나는이 주들이 다양한 순서로 나타날 것으로 기대하며, 주들이 반복 될 수있다. 중복 관측 값을 제거하면 N이 624에서 536으로 낮아집니다. 데이터를 연구하면 실제로는 매우 다른 것으로 생각할 수있는 다양성과 순서가 상당히 다양하다는 것을 알 수 있습니다. 불일치, 불일치가 있거나없는 것 사이에서 앞뒤로 진동. 아마도 명확하게 구별 된 군집의 부족은 흥미로운 변형의 부족과 같지 않습니다. 그럼에도 불구하고 약한 클러스터 결과는 시퀀스를 요약 할 수있는 좋은 방법없이 나를 떠날 것 같습니다.
indel이 2의 대체 비용의 .1로 설정된 Ward의 방법의 결과이 통계는 6 개의 클러스터 솔루션이 양호 할 수 있음을 시사합니다. 그러나 ASW는 적습니다. 적어도 합당한 수의 군집 (2 또는 3이 너무 적음)이있는 솔루션의 경우에는 적습니다.
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08