클러스터링에 사용할 수있는 비 유사성 측정에 대한 속성 가중치를 배우고 싶습니다.
나는 몇 가지 예제가 (동일한 클러스터에 있어야합니다) "와 유사한"뿐만 아니라 몇 가지 예로 들어있는 객체의 쌍 "유사하지"있는 객체의 쌍은 (안을 동일한 클러스터에 있어야 함). 각 객체에는 여러 가지 속성이 있습니다. 원하는 경우 각 객체를 차원 벡터의 피처 로 생각할 수 있습니다. 여기서 각 피처는 음이 아닌 정수입니다. 유사 / 비 유사 객체의 이러한 예를 사용하여 비 유사성 측정을위한 최적 피처 가중치를 추정하는 기술이 있습니까?
그것이 도움이된다면, 내 응용 프로그램에서 가중 L2 규범 인 비 유사성 측정 학습에 집중하는 것이 합리적 일 것입니다.
여기서 가중치 는 알려지지 않았 알아야합니다. (또는 어떤 종류의 가중 코사인 유사성 측정도 합리적 일 수 있습니다.) 예를 들어, 그러한 측정에 대한 가중치 를 배우는 좋은 알고리즘이 있습니까? 아니면 고려해야 할 유사성 측정 / 비 유사성 측정을 배우는 다른 방법이 있습니까?
불행히도 차원의 수는 매우 큽니다 (수천 이상; 단어 구성 기능에서 파생 됨). 그러나 나는 수만 가지의 예를 가지고 있습니다. 그런 다음 클러스터링하려는 수십만 개의 객체가 있으므로 예제에서 일반화하여 좋은 비 유사성 메트릭을 배우는 것이 중요합니다.
나는 이것이 반 감독 클러스터링의 루 브릭에 해당한다고 수집하고 그것이 "유사 적응 적응"정맥에 관한 것 같지만이 목적에 사용할 알고리즘에 대한 명확한 설명을 찾을 수 없었습니다.