군집 확률 분포-방법 및 지표?


13

나는 각각 5 개의 벡터로 된 응집 된 이산 결과를 포함하고, 각각의 벡터의 결과는 다른 분포에 의해 생성 된 일부 데이터 포인트를 가지고 있습니다 (구체적으로는 확실하지 않습니다. 법칙 (대략 1 ~ 0).

K-Means와 같은 클러스터링 알고리즘을 사용하여 5 가지 구성 요소 분포의 속성을 기반으로 각 데이터 포인트를 그룹으로 분류하려고합니다. 이러한 목적에 적합한 거리 측정법이 있는지 궁금합니다. 나는 지금까지 세 가지 아이디어를 가지고 있었지만 노련한 통계 학자 (초기 데이터 마이닝 컴퓨터 과학자)가 아니기 때문에 내가 얼마나 멀리 떨어져 있는지 전혀 알지 못합니다.

  1. 내가 어떤 종류의 분포를 다루고 있는지 정확히 알지 못했기 때문에 문제에 대한 무차별 대입 방식은 각 분포 (점당 5 개)를 각각의 개별 데이터 값 (I pad 각 끝에 해당하는 길이 (끝이 0 인 동일한 길이)에 해당하고이 값 각각을 데이터 포인트 자체에 대한 별도의 속성으로 사용합니다. PDF와 CDF 모두에 대해 맨해튼 거리와 유클리드 거리를 이러한 속성을 기반으로하는 메트릭으로 사용하려고 시도했습니다.

  2. 다시 말하지만, 나는 어떤 종류의 분포를 알지 못하기 때문에 전체 분포 사이의 거리를 측정하려는 경우 KS-test와 같은 분포 사이에 일종의 비모수 적 테스트를 쌍으로 사용할 수 있다고 생각했습니다. , 주어진 분포가 다른 PDF에 의해 생성 될 가능성을 찾기 위해. 맨해튼 거리를 사용하는 첫 번째 옵션 (위) 은이 접근법을 사용하여 얻을 수있는 것에 대한 일종의 상한이 될 것이라고 생각했습니다 (KS 통계는 CDF 차이의 최대 절대 값이므로 맨해튼 거리는 PDF 차이의 절대 값의 합). 그런 다음 유클리드 거리를 사용하여 각 데이터 포인트 내에서 다른 KS-Statistics 또는 P- 값을 결합하는 것을 고려했지만 아마도 이러한 모든 값을 최대한 활용했습니다.

  3. 마지막으로 분포의 모양에 대해 해석 할 수있는 것을 거의 사용하지 않기 위해 Weibull 곡선에 적합한 분포의 모수를 추정 할 수 있다고 생각했습니다. 그런 다음 Weibull 분포의 두 매개 변수, 람다 및 k (스케일 및 모양)의 차이를 기반으로 분포를 군집화 할 수 있습니다. 이것이 매개 변수를 정규화하는 방법에 대한 아이디어가 있다고 생각한 유일한 경우입니다.

그래서 제 질문은 분포의 군집화를 위해 어떤 측정 / 방법을 추천 하시겠습니까? 나는 이것들 중 하나와 함께 올바른 길을 가고 있습니까? K-Means는 사용하기에 좋은 알고리즘입니까?

편집 : 데이터의 명확화.

각 데이터 포인트 ( Obj클러스터하려는 각 객체 )는 실제로 문자 그대로 5 vectors데이터를 포함 합니다. 나는이 객체들이 존재할 수있는 정확히 5 개의 단계가 있다는 것을 알고 있습니다. 우리는 (단순화를 위해) 각 벡터가의 것이라고 말합니다 length N.

이 벡터 (호출마다 하나 vector i)와 정수 확률 분포이며 x-values, 각 대응하는 Y 값은 측정의 확률 나타내는 N을 통해 1 value xphase i오브젝트를 Obj. 그런 다음 N은 객체의 모든 단계에서 측정 할 수있는 최대 x 값입니다 (실제로는 고정 숫자가 아닙니다).

다음과 같은 방식으로 이러한 확률을 결정합니다.

  1. 나는 하나를 가지고 Obj와에 넣어 phase i위한 k trials각 시험에서 측정을 복용. 각 측정 값은 단일 정수입니다. 나는 단일 객체의 5 단계 각각에 대해 각 객체에 대해이 작업을 수행합니다. 단일 객체의 원시 측정 데이터는 다음과 같습니다.

    벡터 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    벡터 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    벡터 5. [16, ... ..., 0]

  2. 그런 다음 해당 벡터의 총 측정 수와 관련하여 각 벡터를 자체적으로 정규화합니다. 이 날 각각 대응하는 Y 값은 측정의 확률 나타내 벡터의 확률 분포를 제공 value x하여 phase i.


1
데이터 포인트가 어떻게 분포를 "포함"할 수 있는지는 확실하지 않습니다. 예를 들어 주시겠습니까? 또한 Weibull은 불연속 확률 분포가 아니므로 추가 설명이 필요합니다.
mpiktas

@mpiktas : 각 데이터 포인트는 5 개의 다른 위상을 가진 객체를 나타냅니다. 객체의 각 단계의 동작은 이론적으로 연속 확률 분포 함수로 나타낼 수 있지만 내 데이터에는 개별 샘플 만 포함됩니다. Weibull 분포는 아마도 내 데이터의 "이론적"기능 일 것입니다. 그러나 데이터 자체는 불연속 간격에 대한 밀도 측정 일뿐입니다.
기계를 갈망하는 기계

답변:


5

(전산) 정보 기하학 은 이러한 종류의 문제를 정확하게 다루는 분야입니다. K-means는 Bregman k-means 라는 확장을 가지고 있는데, 이는 분기를 사용합니다 (표준 K-means의 제곱 유클리드가 특별한 경우이지만 Kullback-Leibler이기도합니다). 주어진 발산은 분포, 예를 들어 제곱 유클리드 대 가우시안과 연관됩니다.

예를 들어 Frank Nielsen 의 작품을 살펴볼 수도 있습니다.

이전 게시물에서 지구 발동기 거리라고 언급 한 Wasserstein 거리 (최적의 수송)를 살펴볼 수도 있습니다 .


3

EP-Means 알고리즘 에 대한 논문에서 Henderson 등은이 문제에 대한 접근 방식을 검토하고 자신의 의견을 제시합니다. 그들은 다음을 고려합니다.

  1. 모수 군집-분포에 대한 사전 지식을 바탕으로 분포에 대한 모수를 결정하고 해당 모수를 기반으로 군집화
    • 여기서는 모수 추정치뿐만 아니라 데이터에 대한 기능을 실제로 사용할 수 있습니다. 이는 데이터가 다른 분포에서 나온 것을 알고있는 경우에 유용합니다
  2. 히스토그램 비닝-데이터를 빈으로 분리하고 각 빈을 공간 군집에 사용할 차원으로 간주
  3. EP-Means (그들의 접근법)-분포 중심 (클러스터에 할당 된 모든 분포의 혼합물)을 정의하고 지구 이동기 거리의 제곱의 합 ( CDF 간 거리 의 예상 값과 같은 것)을 최소화합니다 . 분포 중심 및 해당 군집에 지정된 분포.L1

내가 성공적으로 사용한 또 다른 기술은 모든 분포에서 관측 된 모든 점을 개별적으로 군집화 한 다음 각 군집에서 끝나는 점의 비율에 해당하는 소프트 확률을 분포 i에 할당하는 것입니다. 단점은 그런 식으로 배포판을 분리하는 것이 훨씬 어렵습니다. 거꾸로, 그것은 자동 조정의 종류와 모든 분포가 동일하다고 가정합니다. 그래도 정규화 속성이 필요할 때만 사용합니다.


1
우리 사이트에 오신 것을 환영합니다! 참고는 달러 기호 내부에 텍스트를 넣어 여기 라텍스 마크 업을 사용할 수있는, 예를 들면 $i$생산 , 또는 생산 쉽게 자신을 표현 할 수 있습니다,i$l_2$l2
좀 벌레

1

두 단계로 진행해야합니다. (1) 데이터 축소 및 (2) 클러스터링.

1 단계의 경우 데이터를 신중하게 검사하고 데이터에 대한 합리적인 확률 분포를 결정해야합니다. 이 단계에 대해 이미 생각한 것 같습니다. 다음 단계는 이러한 분포의 모수를 추정하는 것입니다. 클러스터 할 각 장치에 대해 모델을 개별적으로 맞추거나 일반화 된 선형 혼합 모델과 같은보다 정교한 모델을 사용하는 것이 적절할 수 있습니다.

그런 다음 2 단계에서 이러한 모수 추정값을 기반으로 군집화 할 수 있습니다. 이 단계에서는 단위당 적은 수의 모수 추정값이 있어야합니다. 이 게시물 에 대한 답변에서 설명한대로 이러한 모수 추정값을 군집화 할 수 있습니다.

이 답변은 필연적으로 다소 모호합니다. 여기에는 "통조 된"솔루션이 없으며 각 단계마다 고유 한 문제에 따라 관련 될 수있는 거의 무한한 수의 방법 중에서 선택하기 위해 많은 통계적 통찰력이 필요합니다. 귀하의 질문에 대한 진술은 당신이 자신에게 훌륭한 통계 지식을 스스로 얻었음을 보여 주지만 여전히 확률 분포와 확률 분포의 관측치의 구별과 같은 핵심 통계 개념에 대한 근본적인 오해가 있습니다. . 수학 통계 과정을 이수 / 감사하는 것을 고려하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.