표준 편차의 2D 아날로그?


19

다음 실험을 고려해보십시오. 한 무리의 사람들에게 도시 목록이 제공되고 해당 위치를 표시 (또는 레이블이없는) 세계지도에 표시하도록 요청합니다. 각 도시마다 대략 각 도시를 중심으로 여러 포인트가 산포됩니다. 이스탄불에 따르면 일부 도시는 다른 도시보다 산란이 적을 것이라고 모스크바는 말합니다.

주어진 도시 에 대해 테스트에 의해 할당 에서 도시 의 위치를 나타내는 2D 샘플 가정 해 봅시다. 주제 . 이 세트에서 포인트의 "분산"의 양을 적절한 단위 (km)로 단일 숫자로 표현하고 싶습니다.( x , y ){(xi,yi)}(x,y)i

1D 문제의 경우 표준 편차를 선택하지만 위에서 설명한 상황에 맞게 합리적으로 선택할 수있는 2D 아날로그가 있습니까?


정복을하고 있습니까?
RockScience

예제가 명시 적으로 공간적이라는 점에서 공간 태그를 추가했습니다. 당신 (또는 다른 사람)이 필요하다고 느끼면 추가를 롤백 할 필요가 없습니다.
Andy W

답변:


12

사용할 수있는 한 가지 점은 중심점 와의 거리 측정입니다 예 : 점의 샘플 평균 또는 관측 된 점의 중심입니다. 그런 다음 분산 측정은 해당 중심점으로부터의 평균 거리입니다.c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

여기서 입니다. 거리 측정에는 많은 선택이 가능하지만 규범 (예 : 유클리드 거리)이 합리적인 선택 일 수 있습니다. L 2zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

그러나 다른 많은 잠재적 인 선택이 있습니다. http://en.wikipedia.org/wiki/Norm_%28mathematics%29 참조


거리가 0이 아닌 반면, 축퇴의 경우 일반적인 차원의 표준 편차가 일치하지 않기 때문에 이것은 실제로 이상한 선택입니다. 따라서 대신 를 고려하십시오. zic2
Alex R.

6

포인트 패턴의 공간 분포에 대한 메트릭스에 대한 좋은 참고 자료는 CrimeStat 매뉴얼입니다 ( 특히이 질문에 대해서는 4 장을 참조하십시오). 제안 된 메트릭 매크로와 유사하게 표준 거리 편차는 2D 표준 편차와 유사합니다 (단, 첫 번째 수식 매크로에서 "n"이 아니라 "n-2"로 나눈다는 점만 다릅니다).

귀하의 예제 실험은 실제로 연구가 어떻게 Geographic Offender Profiling을 평가 하는지를 상기시켜 주므로 이러한 작업에 사용 된 지표가 관심을 가질 수 있습니다. 특히 정밀도와 정확성이라는 용어는 상당히 많이 사용되며 연구와 관련이 있습니다. 가제 스는 표준 편차가 적을 수 있지만 (정확한) 여전히 정확도가 매우 낮습니다.


1

데이터 세트의 상관 관계를 고려하고 '규모 불변'이기 때문에 유클리드 거리 표준 대신 'Mahalanobis 거리'를 사용해야한다고 생각합니다. 여기 링크가 있습니다:

http://en.wikipedia.org/wiki/Mahalanobis_distance

'Half-Space Depth'를 사용할 수도 있습니다. 좀 더 복잡하지만 많은 매력적인 속성을 공유합니다. 데이터 세트 P에 대한 주어진 점 a의 절반 공간 깊이 (위치 깊이라고도 함)는 a를 통해 선으로 결정된 닫힌 반평면에있는 P의 최소 점 수입니다. 링크는 다음과 같습니다.

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
특정 점이 집합에 속하는지 말하려고 할 때 Mahalanobis 거리를 사용하는 것을 이해하지만 중심점으로부터의 평균 유클리드 거리가 일반적인 분산 / 표준 편차 개념과 더 밀접하게 관련되어 있지는 않습니다. 일 변량 설정?
매크로

2
"데이터의 상관 관계를 고려합니다"및 "규모가 변하지 않는다"는 문장을 자세히 설명 하시겠습니까? 이러한 것들 중 어떤 것이 당면한 질문에 어떤 관련이 있습니까?
앤디 W

일반적으로 표준 편차를 더 높은 차원으로 확장하는 것은 데이터 중심으로부터 특정 점의 거리를 계산하는 방법입니다. 그러나 여기서는 각 점을 정규화하여 군집 분석 또는 이상치 탐지를 쉽게 수행 할 수 있습니다. 또한, Mahalanobis 거리는 점의 분포가 비구 형인 경우에 더 적합합니다. 구형 대칭의 경우 데이터 포인트의 공분산 행렬이 항등 행렬로 감소하는 일반적인 확장 표준 편차와 동일합니다.
VitalStatistix

1

최근에 비슷한 문제가 발생했습니다. 점이 영역별로 얼마나 잘 흩어져 있는지 측정하는 방법이 필요합니다. 물론, 주어진 측정에 대해, 모든 점들이 직선으로되어 있다면, 2 차원 다양성이 없기 때문에 답은 0이라는 것을 알아야합니다.

내가 한 계산에서 이것은 내가 생각해 낸 것입니다.

에스엑스엑스에스와이와이에스엑스와이²

이 경우 Sxx와 Syy는 각각 x와 y의 분산이고 Sxy는 x와 y의 혼합 분산과 비슷합니다.

자세히 설명 n 개의 요소가 있고 는 x 의 평균값을 나타내고 는 y의 평균을 나타냅니다.엑스μ와이μ

에스엑스엑스=1나는=1(엑스엑스μ)²
에스와이와이=1나는=1(와이와이μ)²
에스엑스와이=1나는=1(엑스엑스μ)(와이와이μ)

잘하면 이것이 당신을 위해 작동해야합니다.

또한 4 차원으로 부피 산포 또는 surteron 벌크 측정과 같이 더 높은 차원에서 수행하는 방법에 대해 궁금한 경우 다음과 같은 행렬을 형성해야합니다.

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

그리고 필요한 많은 치수를 계속하십시오. 위에서 제공 한 정의에 따라 다른 변수에 대해 S 값을 알아낼 수 있어야합니다.

행렬이 만들어지면 결정자를 취하고 제곱근을 찾으면 끝납니다.


0

들어 이 특정 예 - 소정 "올바른"응답이 어디에 - 나는 것 다시 작동 X / Y cooridnates은지도에 표시하도록 요청되고 있었다 도시 주변 극좌표 수 있습니다. 그런 다음 반경 성분 (평균, sd 등)을 다시 측정하여 정확도를 측정합니다. "평균 각도"를 사용하여 바이어스를 측정 할 수도 있습니다.

나 자신을 위해, 나는 여전히 미리 결정된 중심점이 없을 때에 대한 좋은 해결책을 찾고 있으며, 중심을 생성하기 위해 데이터를 사전 통과하는 아이디어를 좋아하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.