GAP 통계를 어떻게 해석해야합니까?

나는 RAP에서 k 개의 군집을 추정하기 위해 GAP 통계를 사용했지만 잘 해석할지는 확실하지 않습니다. 여기에 이미지 설명을 입력하십시오

위의 플롯에서 3 개의 클러스터를 사용해야한다고 가정합니다.

여기에 이미지 설명을 입력하십시오

두 번째 줄거리에서 6 개의 클러스터를 선택해야합니다. GAP 통계에 대한 올바른 해석입니까?

설명해 주셔서 감사합니다.

clustering

— 피터 피터
소스

두 가지 질문-첫 번째 줄거리는 무엇입니까? 동일한 데이터에 대한 GAP 통계입니까? 왜 두 번째와 다르게 보일까요 (GAP입니다). 어떤 R 기능을 사용 했습니까? 두 번째 질문 : '1 표준 오류'규칙을 사용하여 두 번째 플롯에서 6을 선택 했습니까?

— Deathkill14

따라서 클러스터링에는 두 가지 접근 방식이 있습니다. 시계열 기반의 첫 번째 제품-26 주 동안의 판매 및 동적 시간 왜곡을 기반으로 데이터를 클러스터링했습니다. 두 번째 방법은 동적 시간 왜곡을 기반으로 성장 곡선 매개 변수를 클러스터하는 것입니다. clusGapglobalmax를 기반으로 사용 했지만 maxSE를 구현하는 방법을 몰랐습니다.

— peterpeter

$k$ $k$ $k=2$

그러나 많은 실제 데이터 세트에서 군집이 잘 정의되어 있지 않으므로 모형 통계와 격차 통계 최대화의 균형을 맞추고 자합니다. 적절한 예 : OP의 첫 번째 이미지. 갭 통계 만 최대화하는 경우 30 개 (또는 그 이상) 군집이있는 모형을 선택해야합니다. 그 줄거리가 계속 증가한다고 가정하면 결과는 유용하지 않습니다. 따라서 Tibshirani는 1 표준 오류 방법을 제안합니다 .

$\hat{k}$ $k$ $\text{Gap}(k) \geq \text{Gap}(k + 1) - s_{k + 1}$ .

격차 통계의 증가율이 "느리게"시작하는 시점을 비공식적으로 식별하는 것.

$k$

$k > 1$ $k$ $1$ 입니다. 이것이 데이터를 클러스터링해서는 안된다는 플롯의 방법입니다.

$k$ clusGap $k$ firstSEmax $k = 30$ $k = 19$ OP의 그래프 1과 2에 대해 각각 를 합니다. 그러나 내가 말했듯이 이것은 복잡성 문제로 어려움을 겪고있는 것 같습니다.

출처 : Robert Tibshirani, Guenther Walther 및 Trevor Hastie (2001). 간격 통계를 통해 데이터 세트의 클러스터 수를 추정합니다.

— jayelm
소스

k

$k$

k

$k$

간격 통계 및 GET 간결 모델을 극대화 사이의 트레이드 오프를 지적 주셔서 감사합니다

— cloudscomputes