나는 각각 5 개의 벡터로 된 응집 된 이산 결과를 포함하고, 각각의 벡터의 결과는 다른 분포에 의해 생성 된 일부 데이터 포인트를 가지고 있습니다 (구체적으로는 확실하지 않습니다. 법칙 (대략 1 ~ 0).
K-Means와 같은 클러스터링 알고리즘을 사용하여 5 가지 구성 요소 분포의 속성을 기반으로 각 데이터 포인트를 그룹으로 분류하려고합니다. 이러한 목적에 적합한 거리 측정법이 있는지 궁금합니다. 나는 지금까지 세 가지 아이디어를 가지고 있었지만 노련한 통계 학자 (초기 데이터 마이닝 컴퓨터 과학자)가 아니기 때문에 내가 얼마나 멀리 떨어져 있는지 전혀 알지 못합니다.
내가 어떤 종류의 분포를 다루고 있는지 정확히 알지 못했기 때문에 문제에 대한 무차별 대입 방식은 각 분포 (점당 5 개)를 각각의 개별 데이터 값 (I pad 각 끝에 해당하는 길이 (끝이 0 인 동일한 길이)에 해당하고이 값 각각을 데이터 포인트 자체에 대한 별도의 속성으로 사용합니다. PDF와 CDF 모두에 대해 맨해튼 거리와 유클리드 거리를 이러한 속성을 기반으로하는 메트릭으로 사용하려고 시도했습니다.
다시 말하지만, 나는 어떤 종류의 분포를 알지 못하기 때문에 전체 분포 사이의 거리를 측정하려는 경우 KS-test와 같은 분포 사이에 일종의 비모수 적 테스트를 쌍으로 사용할 수 있다고 생각했습니다. , 주어진 분포가 다른 PDF에 의해 생성 될 가능성을 찾기 위해. 맨해튼 거리를 사용하는 첫 번째 옵션 (위) 은이 접근법을 사용하여 얻을 수있는 것에 대한 일종의 상한이 될 것이라고 생각했습니다 (KS 통계는 CDF 차이의 최대 절대 값이므로 맨해튼 거리는 PDF 차이의 절대 값의 합). 그런 다음 유클리드 거리를 사용하여 각 데이터 포인트 내에서 다른 KS-Statistics 또는 P- 값을 결합하는 것을 고려했지만 아마도 이러한 모든 값을 최대한 활용했습니다.
마지막으로 분포의 모양에 대해 해석 할 수있는 것을 거의 사용하지 않기 위해 Weibull 곡선에 적합한 분포의 모수를 추정 할 수 있다고 생각했습니다. 그런 다음 Weibull 분포의 두 매개 변수, 람다 및 k (스케일 및 모양)의 차이를 기반으로 분포를 군집화 할 수 있습니다. 이것이 매개 변수를 정규화하는 방법에 대한 아이디어가 있다고 생각한 유일한 경우입니다.
그래서 제 질문은 분포의 군집화를 위해 어떤 측정 / 방법을 추천 하시겠습니까? 나는 이것들 중 하나와 함께 올바른 길을 가고 있습니까? K-Means는 사용하기에 좋은 알고리즘입니까?
편집 : 데이터의 명확화.
각 데이터 포인트 ( Obj
클러스터하려는 각 객체 )는 실제로 문자 그대로 5 vectors
데이터를 포함 합니다. 나는이 객체들이 존재할 수있는 정확히 5 개의 단계가 있다는 것을 알고 있습니다. 우리는 (단순화를 위해) 각 벡터가의 것이라고 말합니다 length N
.
이 벡터 (호출마다 하나 vector i
)와 정수 확률 분포이며 x-values
, 각 대응하는 Y 값은 측정의 확률 나타내는 N을 통해 1 value x
에 phase i
오브젝트를 Obj
. 그런 다음 N은 객체의 모든 단계에서 측정 할 수있는 최대 x 값입니다 (실제로는 고정 숫자가 아닙니다).
다음과 같은 방식으로 이러한 확률을 결정합니다.
나는 하나를 가지고
Obj
와에 넣어phase i
위한k trials
각 시험에서 측정을 복용. 각 측정 값은 단일 정수입니다. 나는 단일 객체의 5 단계 각각에 대해 각 객체에 대해이 작업을 수행합니다. 단일 객체의 원시 측정 데이터는 다음과 같습니다.벡터 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]
벡터 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]
...
벡터 5. [16, ... ..., 0]
그런 다음 해당 벡터의 총 측정 수와 관련하여 각 벡터를 자체적으로 정규화합니다. 이 날 각각 대응하는 Y 값은 측정의 확률 나타내 벡터의 확률 분포를 제공
value x
하여phase i
.