가중 유클리드 거리를 사용하는시기와 사용할 무게를 결정하는 방법


16

각 데이터가 n 다른 측정 값 으로 구성된 일련의 데이터가 있습니다. 각 측정에 대해 벤치 마크 값이 있습니다. 각 데이터가 벤치 마크 값에 얼마나 가까운 지 알고 싶습니다.

가중 유클리드 거리를 다음과 같이 사용하려고 생각했습니다.

dx,b=(i=1nwi(xibi)2))1/2

어디

xi 는 특정 데이터에 대한 i 번째 측정 값입니다.

bi 는 해당 측정 값에 해당하는 벤치 마크 값입니다.

wi 는 다음에 따라 i 번째 측정 값에 첨부 할 가중치 사이의 값입니다.

0<wi<1i=1n1

그러나에 기본 문서, 내가 사용에 무게가 i 번째 측정의 분산의 역수 것을 알아 냈다. 이런 종류의 가중치가 각 측정에 첨부 할 중요성을 설명하지는 않습니다.

따라서:

  1. 관찰자의 측정 값의 상대적 중요성을 반영하는 일련의 가중치를 제시하는 방법이 있습니까? 아니면 관찰자가 가중치에 대한 임의의 값을 할당 할 수 있습니까?

  2. 이 문제를 해결하기 위해 가중 유클리드 거리를 사용하는 것이 적절합니까?

답변:


16

표준화 가중치

중요성에 대한 가중치

'중요도'측정 값을 포함하여 원하는 가중치를 가중치로 자유롭게 입력 할 수 있습니다 (측정 단위가 다른 경우 중요 가중치를 적용하기 전에 표준화하고 싶을 수도 있음).

엑스나는나는나는차원에 따라 현 상태가 될 수 있으며, 다양한 액터의 위치가 다릅니다. 이 응용에서, 확실성과 위치 둘 다를 주장하기보다는 측정하는 것을 확실히 선호 할 것이다. 어느 쪽이든, 가중치가 크면 중요하지 않은 문제에 대한 차이가 첫 번째 방정식에 따라 계산되는 경우 액터 간의 전체 거리에 미치는 영향이 줄어 듭니다. 이 버전에서 우리는 암시 적으로 위치 간 관련 공분산이 없다고 가정합니다. 이는 상당히 강력한 주장입니다.

이제 질문 2에 집중 : 응용 프로그램에서 나는 전 이적 선호 구조 등에 대한 게임 이론적 가정에서 근거한 가중치와 거리에 대한 정당성을 설명했습니다. 궁극적으로, 이러한 방식으로 거리를 계산하는 것이 '적절한'이유는 이것뿐입니다. 그것들이 없으면 우리는 삼각형의 불평등에 따르는 수많은 숫자를 얻었습니다.

암시 적 측정으로서의 무게

공분산 테마에서, 많은 측정이 실제로 유사한 것을 측정한다는 가정하에, 거리가 실질적으로 의미가있는 관련 부분 공간을 식별하는 것으로 문제를 생각하는 것이 도움이 될 수 있습니다. 측정 모델, 예를 들어 계수 분석은 가중치 조합을 통해 거리를 계산할 수있는 공통 공간으로 모든 것을 투영합니다. 그러나 다시 말하지만, 우리는 그것이 의미가 있는지 말하기 위해 연구의 맥락을 알아야합니다.


소중한 정보 감사합니다. 하지만 무게를 계산하는 방법에 대해 우려가 있습니까?
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.