GAP 통계를 어떻게 해석해야합니까?


10

나는 RAP에서 k 개의 군집을 추정하기 위해 GAP 통계를 사용했지만 잘 해석할지는 확실하지 않습니다. 여기에 이미지 설명을 입력하십시오

위의 플롯에서 3 개의 클러스터를 사용해야한다고 가정합니다.

여기에 이미지 설명을 입력하십시오

두 번째 줄거리에서 6 개의 클러스터를 선택해야합니다. GAP 통계에 대한 올바른 해석입니까?

설명해 주셔서 감사합니다.


두 가지 질문-첫 번째 줄거리는 무엇입니까? 동일한 데이터에 대한 GAP 통계입니까? 왜 두 번째와 다르게 보일까요 (GAP입니다). 어떤 R 기능을 사용 했습니까? 두 번째 질문 : '1 표준 오류'규칙을 사용하여 두 번째 플롯에서 6을 선택 했습니까?
Deathkill14

따라서 클러스터링에는 두 가지 접근 방식이 있습니다. 시계열 기반의 첫 번째 제품-26 주 동안의 판매 및 동적 시간 왜곡을 기반으로 데이터를 클러스터링했습니다. 두 번째 방법은 동적 시간 왜곡을 기반으로 성장 곡선 매개 변수를 클러스터하는 것입니다. clusGapglobalmax를 기반으로 사용 했지만 maxSE를 구현하는 방법을 몰랐습니다.
peterpeter

답변:


11

케이케이케이=2

갭 통계

그러나 많은 실제 데이터 세트에서 군집이 잘 정의되어 있지 않으므로 모형 통계와 격차 통계 최대화의 균형을 맞추고 자합니다. 적절한 예 : OP의 첫 번째 이미지. 갭 통계 최대화하는 경우 30 개 (또는 그 이상) 군집이있는 모형을 선택해야합니다. 그 줄거리가 계속 증가한다고 가정하면 결과는 유용하지 않습니다. 따라서 Tibshirani는 1 표준 오류 방법을 제안합니다 .

케이^케이(케이)(케이+1)에스케이+1 .

격차 통계의 증가율이 "느리게"시작하는 시점을 비공식적으로 식별하는 것.

케이

주석이 달린 이미지 1

케이>1케이1 입니다. 이것이 데이터를 클러스터링해서는 안된다는 플롯의 방법입니다.

케이clusGap케이firstSEmax케이=30케이=19 OP의 그래프 1과 2에 대해 각각 를 합니다. 그러나 내가 말했듯이 이것은 복잡성 문제로 어려움을 겪고있는 것 같습니다.

출처 : Robert Tibshirani, Guenther Walther 및 Trevor Hastie (2001). 간격 통계를 통해 데이터 세트의 클러스터 수를 추정합니다.


1
케이케이

간격 통계 및 GET 간결 모델을 극대화 사이의 트레이드 오프를 지적 주셔서 감사합니다
cloudscomputes
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.