최고의 거리 측정


12

문맥

비교할 두 데이터 세트가 있습니다. 두 세트의 각 데이터 요소는 22 개의 각도를 포함하는 벡터입니다 (모두 와 사이 ). 각도는 주어진 휴먼 포즈 구성과 관련이 있으므로 포즈는 22 개의 관절 각도로 정의됩니다.πππ

내가 궁극적으로하려는 것은 두 데이터 세트의 "친밀 성"을 결정하는 것입니다. 따라서 한 세트의 각 포즈 (22D 벡터)에 대해 다른 세트에서 가장 가까운 이웃을 찾고 가장 가까운 쌍 각각에 대한 거리 플롯을 만들고 싶습니다.

질문

  • 간단히 유클리드 거리를 사용할 수 있습니까?
    • 의미를 위해 거리 측정법을 다음과 같이 정의해야한다고 가정합니다. , 여기서절대 값이고 mod는 모듈로입니다. 그런 다음 결과 22 세타를 사용하여 표준 유클리드 거리 계산 있습니다.| . . . | θ=|θ1θ2|modπ|...|t12+t22++t222
    • 이 올바른지?
  • 카이 제곱 또는 Bhattacharyya와 같은 다른 거리 측정법이나 다른 측정법이 더 유용합니까? 그렇다면 왜 그런지에 대한 통찰력을 제공해 주시겠습니까?

3
참고로 나는 당신이 . 같은 오히려 뭔가 . |θ1θ2|modπmin{|θ1θ2|,2π|θ1θ2|}
Erik P.

4
각도로 작업하는 대신 단위 원에서 먼저 (x, y) 좌표로 변환하는 것이 좋습니다. 그런 다음 정상적으로 (거리 등) 계산할 수 있으며 평균화는 각도와 같은 문제가 아닙니다.
caracal

2
@Josh Erik P.의 제안은 좋은 것입니다. 또는 각 각도 를 단위 원 의 점 하고 일반적인 (피타고라스) 공식을 사용하여 유클리드 거리를 계산하십시오. 이 거리와 각도 거리의 차이는 중요하지 않습니다. (이것도 Caracal이 제안한 것일 수도 있습니다.)θ(cos(θ),sin(θ))
whuber

2
@Josh 예를 들어, 및 의 평균 은 입니다. 많은 상황에서 이는 의미가 없으며 대신 이어야합니다 . 특정 상황에서는 인간 관절에 과거의 움직임 범위가 없기 때문에 문제가되지 않을 수 있습니다 . 또한 경우에 따라 관절 운동이 단방향이기 때문에 위에서 언급 한 평균을 로 지정할 수 있습니다 . @ whuber의 제안은 정확히 내가 의미 한 바입니다. π/47π/4π0ππ
caracal

3
"실패"의 결과를 지정할 수 있으면 문제를 해결하기가 훨씬 쉬워 질 것입니다. 따라서 데이터 세트가 동일하거나 유사하다고 말하지만 실제로는 그렇지 않다면 어떻게 될까요? 그것은 당신의 결정이 "얼마나 잘못"에 달려 있습니까? 데이터 / 포즈를 다르게 선언했지만 실제로 동일하거나 유사한 경우 어떻게됩니까? 잃어버린 것은 무엇입니까? 이 질문에 대답 하면 비교할 대상 결정 하는 데 도움이됩니다 . 이를 통해 올바른 질문에 답변 할 수 있습니다.
probabilityislogic

답변:


5

각 세트의 공분산 행렬을 계산 한 다음 Mahalanobis 거리를 사용하여 두 세트 간의 Hausdorff 거리를 계산할 수 있습니다.

Mahalanobis 거리는 알려지지 않은 샘플 세트와 알려진 샘플 세트의 유사성을 결정하는 유용한 방법입니다. 데이터 세트의 상관 관계를 고려하고 규모가 변하지 않는다는 점에서 유클리드 거리와 다릅니다.


3

가장 가까운 이웃 정보로 무엇을하려고합니까?

나는 그 질문에 대답하고, 그 점에 비추어 다른 거리 측정을 비교할 것입니다.

예를 들어 관절 구성을 기반으로 포즈를 분류하려고하고 동일한 포즈의 관절 벡터를 서로 가깝게하고 싶다고 가정 해 봅시다. 서로 다른 거리 메트릭의 적합성을 평가하는 간단한 방법은 KNN 분류기에서 각 메트릭을 사용하고 각 결과 모델의 샘플 외부 정확도를 비교하는 것입니다.


2

이것은 정보 검색 (IR)의 특정 응용 프로그램과 유사하게 들립니다. 몇 년 전 저는 당신이하는 것과 비슷한 보행 인식에 관한 이야기에 참석했습니다. 정보 검색에서 "문서"(귀하의 경우 : 사람의 각도 데이터)는 일부 쿼리와 비교됩니다 (귀하의 경우 "각도 데이터 (.., ..))를 가진 사람이있을 수 있습니다"). 그런 다음 문서는 가장 일치하는 문서와 가장 일치하는 순서대로 나열됩니다. 즉, IR의 하나의 중심 구성 요소는 문서를 일종의 벡터 공간 (귀하의 경우 각도 공간)에 넣고 특정 쿼리 또는 예제 문서와 비교하거나 거리를 측정한다는 것을 의미합니다. (아래 참조) 두 개의 개별 벡터 사이의 거리를 사운드로 정의한 경우, 두 데이터 세트의 거리에 대한 측정 값 만 있으면됩니다. (통상적으로 IR에서 벡터 공간 모델의 거리는 코사인 측정 또는 유클리드 거리에 의해 계산되지만 그 경우 어떻게 수행했는지는 기억하지 못합니다.) IR에는 개념적으로 "관련성 피드백"이라는 메커니즘이 있습니다. , 두 세트의 문서 거리에서 작동합니다. 이 메커니즘은 일반적으로 모든 문서 쌍 (또는 귀하의 경우에는 사람 벡터) 사이의 모든 개별 거리를 합산하는 거리 측정을 사용합니다. 어쩌면 그것은 당신에게 사용됩니다.

다음 페이지가 문제와 관련된 것 몇 가지 서류가 있습니다 http://www.mpi-inf.mpg.de/~mmueller/index_publications.html 특히이 하나 http://www.mpi-inf.mpg.de/ ~ mmueller / publications / 2006_DemuthRoederMuellerEberhardt_MocapRetrievalSystem_ECIR.pdf가 흥미로워 보입니다. 내가 참석 한 뮬러의 이야기는 Kovar와 Gleicher의 유사점 측정법에 대해 "포인트 클라우드"( http://portal.acm.org/citation.cfm?id=1186562.1015760&coll=DL&dl=ACM 참조 )와 "quaternions" . 희망이 있습니다.


참조가 있으면 참조를하는 것이 좋습니다. 감사.
Josh

2

이 문제를 거리 측정법 학습이라고합니다. 모든 거리 측정 항목은 로 표현할 수 있습니다. 여기서 는 양의 반정의입니다. 이 하위 영역의 방법은 데이터에 대한 최적의 를 학습합니다 . 실제로 최적 가 항등 행렬 인 경우 유클리드 거리를 사용하는 것이 좋습니다. 역공 분산이면 Mahalanobis 거리 등을 사용하는 것이 가장 좋습니다. 따라서 최적의 를 학습하고 올바른 거리 메트릭을 학습하려면 거리 메트릭 학습 방법을 사용해야합니다 .(xy)tA(xy)AAAA


0

앵글을 프록시로 사용하여 모양을 사용할 때의 한 가지 문제점은 각도의 작은 섭동이 모양에 큰 섭동을 유발할 수 있다는 것입니다. 또한, 상이한 각도 구성은 동일한 (또는 유사한) 형상을 초래할 수있다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.