두 데이터 세트 간의 유사성 정량화


12

요약 : 가장 좋은 방법을 찾으려고 시도하면 단일 값을 사용하여 정렬 된 두 데이터 집합 간의 유사성을 요약합니다.

세부 사항 :

내 질문은 다이어그램으로 가장 잘 설명됩니다. 아래 그래프는 값이 각각 nf및로 표시된 두 개의 서로 다른 데이터 세트를 보여줍니다 nr. x 축의 점은 측정이 수행 된 위치를 나타내며 y 축의 값은 측정 된 결과 값입니다.

각 그래프 에 대해 각 측정 지점 의 유사성 nfnr값 을 요약하는 단일 숫자를 원합니다 . 이 예에서는 첫 번째 그래프의 결과가 두 번째 그래프의 결과와 덜 유사하다는 것이 시각적으로 명백합니다. 그러나 차이점이 분명하지 않은 다른 많은 데이터가 있으므로이를 정량적으로 순위를 매기는 것이 도움이 될 것입니다.

일반적으로 사용되는 표준 기술이있을 것으로 생각했습니다. 통계적 유사성을 검색하면 많은 다른 결과가 나왔지만 무엇을 선택해야하는지 또는 준비된 것이 내 문제에 적용되는지 확실하지 않습니다. 그래서 간단한 대답이있을 경우이 질문을 할 가치가 있다고 생각했습니다.

여기에 이미지 설명을 입력하십시오


1
과다한 조치가 나열된이 문서를보고 싶을 수도 있습니다. ( users.uom.gr/~kouiruki/sung.pdf ) 링크가 작동하지 않는 경우 국제 수학 모델 및 방법 저널에서 차 성혁의 "확률 밀도 함수 간 거리 / 유사성 측정에 대한 포괄적 인 조사" Applied Science에서 많은 유사성 측정 방법을 검토합니다.
arie64

동적 시간 왜곡은 두 시계열의 유사성을 측정하는 데 사용됩니다. 이 기술은 여기서 작업을 수행 할 수 있습니다. 이 링크를 확인 en.wikipedia.org/wiki/Dynamic_time_warping
아만 아난드

답변:


6

두 커브 사이의 영역에 차이가있을 수 있습니다. 따라서 합 (nr-nf) (모든 차이의 합)은 두 곡선 사이의 면적의 근사치입니다. 상대적으로 만들려면 sum (nr-nf) / sum (nf)를 사용할 수 있습니다. 각 그래프에 대해 2 개의 곡선 사이의 유사성을 나타내는 단일 값이 제공됩니다.

편집 : 위의 차이 합계 방법은 별도의 점 또는 관측치이며 연결된 선이나 곡선이 아닌 경우에도 유용하지만,이 경우 차이의 평균도 지표가 될 수 있으며 관측치 수


1
나는 이것을 시도하고 그것이 어떻게 작동하는지 볼 것이다. 나는 아직도 더 공식화 된 기술과 관련이 있기를 바라고있다. 유클리드 거리에 대해 읽었으며 여기의 기술과 매우 유사한 것 같습니다. 또한 그래프에 연결선이 있어도 추가 메모로 개별 포인트에만 관심이 있습니다. 곡선을 측정하지 않고 측정 된 값만 비교합니다. 내 질문에 그것이 분명한지 모르겠습니다.
Gabriel Southern

포인트가 연결되어 있지 않아도 작동합니다.
rnso

1

'유사성'의 의미를 더 정의해야합니다. 규모가 중요합니까? 아니면 모양 만?

모양 만 중요한 경우 두 시계열을 최대 값으로 정규화해야합니다 (따라서 모두 0에서 1까지).

선형 상관 관계를 찾고 있다면 간단한 피어슨 상관 관계 분석이 제대로 작동합니다. 이는 본질적으로 공분산을 측정합니다.

예를 들어, 시계열에 선 또는 다항식을 맞추고 (실질적으로 다듬기) 부드러운 다항식을 비교할 수있는 다른 기술이 있습니다.

주기적인 유사성을 찾고있는 경우 (즉, 시계열에 특정 정현파 성분 또는 계절성이있는 경우) 시계열 분해를 추세에 사용하고 계절 성분을 먼저 사용하십시오. 또는 FFT와 같은 것을 사용하여 주파수 영역의 데이터를 비교하십시오.

그것이 '유사한 것'이 무엇인지에 대한 더 많은 정의없이 내가 아는 모든 것에 관한 것입니다. 도움이 되길 바랍니다.


0

모든 측정 지점에 (nr-nf)를 사용할 수 있습니다. 숫자가 작을수록 (절대 값) 값이 더 비슷합니다. 가장 과학적인 접근 방식은 아니지만 용서하십시오. 나는이 물건에 대한 공식적인 훈련이 없습니다. 비주얼의 숫자 표현을 찾고 있다면 그렇게해야합니다.


1
제안 해 주셔서 감사합니다. 나도 그것에 대해 생각했지만 문제는 상대적인 차이가 아닌 절대적인 차이에 의해 가중 될 것이라는 것입니다. 이 예제에서 더 유사한 데이터 세트도 더 작은 절대 값을 가졌지 만 상황이 반대로 바뀌면이 기술을 사용하여 잘못된 해석을 얻을 수 있습니다. 절대적인 차이보다는 상대적인 유사성 / 차이를 요약해야합니다.
Gabriel Southern

(nr-nf) / nf가 작동합니까? 그것은 당신에게 친척을 줄 것입니다. 나는 같은 종류의 상황을 직접 다루기 때문에 실제 답변을 보는 데 정말로 관심이 있습니다.
Mike G

그것들이 모두 비슷한 규모에 있다면 당신의 비슷한 것들이 일반적으로 낮다는 사실이 상대적인 가치에 관한 것이 아니라, 그것은 유사성의 해석에 관한 것입니다. 두 번째 그래프의 값이 101-104의 범위에 있으면 유사성의 해석이 변경됩니까? 그렇다면 설명해야합니다. 정확히 y 변수가 무엇인지에 대한 자세한 내용이 필요합니다.
John

@ 존 좋은 지적입니다. 나는 이것에 대해 더 생각할 필요가 있다고 생각한다. y의 값은 벤치 마크의 속도 향상 값이며 다양한 구성 간의 유사성을 비교하려고합니다. 따라서이 답변의 제안이 효과가 있다고 생각합니다. 숫자가 어떻게 보이는지 확인하려고 시도 할 수 있습니다. 나는 여전히 공식적으로 수용되는 통계 기술을 사용하는 것을 선호합니다 (내 문제에 대한 기술이있는 경우).
Gabriel Southern
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.