불일치 조치를위한 가중치를 찾는 방법


9

클러스터링에 사용할 수있는 비 유사성 측정에 대한 속성 가중치를 배우고 싶습니다.

나는 몇 가지 예제가 (동일한 클러스터에 있어야합니다) "와 유사한"뿐만 아니라 몇 가지 예로 들어있는 객체의 쌍 "유사하지"있는 객체의 쌍은 (안을 동일한 클러스터에 있어야 함). 각 객체에는 여러 가지 속성이 있습니다. 원하는 경우 각 객체를 차원 벡터의 피처 로 생각할 수 있습니다. 여기서 각 피처는 음이 아닌 정수입니다. 유사 / 비 유사 객체의 이러한 예를 사용하여 비 유사성 측정을위한 최적 피처 가중치를 추정하는 기술이 있습니까?(나는,나는)(나는,나는)

그것이 도움이된다면, 내 응용 프로그램에서 가중 L2 규범 인 비 유사성 측정 학습에 집중하는 것이 합리적 일 것입니다.

(엑스,와이)=제이α제이(엑스[제이]와이[제이])2.

여기서 가중치 는 알려지지 않았 알아야합니다. (또는 어떤 종류의 가중 코사인 유사성 측정도 합리적 일 수 있습니다.) 예를 들어, 그러한 측정에 대한 가중치 를 배우는 좋은 알고리즘이 있습니까? 아니면 고려해야 할 유사성 측정 / 비 유사성 측정을 배우는 다른 방법이 있습니까?α제이α제이

불행히도 차원의 수는 매우 큽니다 (수천 이상; 단어 구성 기능에서 파생 됨). 그러나 나는 수만 가지의 예를 가지고 있습니다. 그런 다음 클러스터링하려는 수십만 개의 객체가 있으므로 예제에서 일반화하여 좋은 비 유사성 메트릭을 배우는 것이 중요합니다.

나는 이것이 반 감독 클러스터링의 루 브릭에 해당한다고 수집하고 그것이 "유사 적응 적응"정맥에 관한 것 같지만이 목적에 사용할 알고리즘에 대한 명확한 설명을 찾을 수 없었습니다.


매우 흥미로운 문제입니다. 내가 당신의 문제를 바로 잡으면, 당신은 주로 쌍 유사성 또는 비 유사성을 인코딩하는 요소를 가진 빈 행렬을 보게됩니다. 일부 요소가 채워졌지만 대부분 누락되었습니다. 먼저 해당 행렬을 채우려 고합니다 (예를 들어 낮은 순위 가정 사용).
Vladislavs Dovgalecs

@ xeon, 그것은 하나의 접근 방식이지만 기능을 무시합니다. 내 가설은 일부 기능은 관련성이 높고 일부 기능은 관련이 없으며 관련 기능의 차이를 보면 합리적인 비 유사성 메트릭을 제공한다는 것입니다. 그러나 해당 메트릭을 어떻게 찾을 수 있습니까? 제안한대로 행렬을 완성하려고하면이 구조를 무시하므로 우리가 가진 데이터를 최대한 활용하지 못합니다.
DW

최종 목표는 무엇입니까? 거리 측정법을 배우는 것만이 아닙니다. 데이터 포인트를 분류하고 싶습니까?
Vladislavs Dovgalecs

1
나는 당신이 매우 명확하게 설명하지 않은 것들이 있습니다. 예제 쌍의 전체 세트가 완전한 이진 (1 = 유사; 0 = 비 유사) 매트릭스를 형성하거나 일부 셀 정보가 누락됩니까? 매트릭스가 "비 모순"입니까? 즉, 예제 개체가 겹치지 않는 클래스로 분할됩니까? 또한 어떤 학습 방법도 측정 유형 (예 : L2 또는 L1 표준 등)을 조언 할 수 없습니다 (또는 속성의 종류, 기능의 개념에 따라 결정됨). 공간, 클러스터링 방법).
ttnphns

이것은 너무 광범위 하여 여기에 합리적으로 대답 할 수 없습니다. 특징 가중, 선택 및 거리 함수 학습에 관한 많은 양의 문헌이 있습니다. 유사 학습에 관한 회의도 ​​본 것 같습니다!
Quit--Anony-Mousse를 가지고 있습니다

답변:


6

이것은 기계 학습의 일부 영역에서 큰 문제입니다. 나는 내가 원하는만큼 익숙하지 않지만 이것들이 당신을 시작해야한다고 생각합니다.

데이터가 너무 고차원 적이며 아마도 희박합니까?를 고려할 때 너무 비선형적인 것이 필요하지 않을 수 있습니다. 주변 구성 요소 분석이 시작하기 가장 좋은 장소일까요? 가중 아이디어에 가장 가깝습니다.2 당신의 질문에서 제안한 것처럼 규범.


예, 데이터가 희박합니다. 매우 도움이됩니다. 감사합니다. 매트릭스가있는 주변 구성 요소 분석의 변형이 있습니까? 대각선으로 제한됨 대각선)? (이것은 위의 질문에서 언급 한 비 유사성 등급에 해당하는 것 같습니다.)
DW

왜 그 제한을 포함시킬 수 없는지 모르겠습니다. 그러나 결과 모델에 이름이 있는지 확실하지 않습니다.
David J. Harris

1

퍼팅 나는당신의 유사도 측정의 기능에 무게가 너무 동등 데이터 세트를 확장 하여1/나는.

즉, 데이터 전처리 및 스케일링에 대해 묻습니다. 한 번의 질문으로 대답하기에는 너무 광범위합니다. 찾다:

  • 기능 선택
  • 기능 가중치
  • 표준화
  • 차원 축소
  • 다른 프로젝션 기술
  • 다른 거리 기능
  • "랭킹 학습"

방대한 양의 문헌과 심지어 이것에 관한 컨퍼런스 트랙도 있습니다. 시작하는 몇 가지 방법 :

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.