평균 GPS 포인트 찾기


11

포인트 집단에서 평균 GPS 포인트를 찾기위한 프로그램을 작성해야합니다.

실제로 다음이 발생합니다.

  • 매달 사람은 동일한 정적 자산의 GPS 포인트를 기록합니다.
  • GPS의 특성상이 점들은 매달 약간 씩 다릅니다.
  • 때로는 사람이 완전히 다른 위치에서 잘못된 주장을 잘못 기록하는 경우가 있습니다.
  • 각 GPS 포인트에는 현재 GPS 데이터의 정확도를 나타내는 확실성 가중치 ( HDOP )가 있습니다. 더 나은 HDOP 값을 가진 GPS 포인트가 낮은 것보다 선호됩니다.

다음을 어떻게 결정합니까?

  • 나이와 같은 단일 값 대 2 값을 가진 데이터를 처리하십시오. (인구 집단의 평균 연령 찾기)
  • 특이 치를 결정합니다. 아래 예에서 [-28.252, 25.018] 및 [-28.632, 25.219]입니다.
  • 특이 값을 제외한 후 평균 GPS 포인트는 [-28.389, 25.245] 일 수 있습니다.
  • 각 포인트에 대해 HDOP 값으로 제공되는 "무게"를 사용할 수 있다면 보너스가됩니다.

대체 텍스트


1
이 답변은 stats.stackexchange.com/questions/2493/… 의 평균을 계산하는 데 도움이 될 정도로 유사 합니다. 해당 프레임 워크에 가중치를 통합하는 것은 간단합니다. 나는 당신이 특이한 휴리스틱을 사용하여 특이 치를 식별 할 수 있다고 생각하지만 Stephan이 제안한 것처럼보다 경험적인 접근법을 취하는 것을 방해하지는 않습니다.
Andy W

답변:


8

다변량 데이터의 문제점 중 하나는 거리를 계산하기에 적합한 메트릭을 결정하고 해석하는 것이므로 Mahalanobis 거리와 같이 영리하지만 다소 설명하기 어려운 개념입니다. 그러나이 경우에는 반드시 선택해야 합니다. 유클리드 거리 . 다음과 같은 간단한 휴리스틱 알고리즘을 제안합니다.

  1. 데이터 포인트의 (가중치가없는) 중심, 즉 2 개의 좌표의 (가중치가없는) 평균을 계산합니다
  2. 중심으로부터 모든 판독 값의 유클리드 거리를 계산
  3. 특정 거리 이상인 판독 값을 제외하십시오 (기술에 대한 경험과 지식에 따라 결정되거나 시행 착오 교차 검증에 실패 함 -100m, 1km, 10km ??)
  4. HDOP 점수의 역수 (또는 일부 단조 함수)로 가중하여 나머지 점의 두 좌표의 가중 평균을 계산하십시오. 또는 질문의 링크 된 wikipedia 페이지를 빠르게 보았을 수도 있습니다. 기능이지만 확실하게 공부해야합니다.)

가중치를 낮추는 이상 치나 M 추정기를 사용 하는 것 등 단순히이 방법을 좀 더 정교하게 만드는 몇 가지 방법이 있지만 이러한 세련미가 실제로 필요한지 확실하지 않습니다.


3

Rob Hyndman은 최근 다변량 데이터에서 특이 치를 탐지 하는 것에 대한 의문을 제기했습니다 . 대답은 몇 가지 가능한 접근 방식을 제공 할 수 있습니다 (그렇지 않으면 2 차원 이상 값을 찾는 문제를 별도의 질문에 추가 할 수 있음).

그리고 나머지 GPS 데이터 구성 요소를 구성 요소별로 평균화 할 수 있습니다. 모든 첫 번째 구성 요소를 더하고 포인트 수로 나누면 평균의 첫 번째 구성 요소가됩니다. 두 번째 구성 요소와 동일합니다.

이 평균화는 HDOP에 의해 가중 될 수 있습니다. 첫 번째 구성 요소의 곱을 해당 HDOP 점수와 곱한 다음이 합계를 HDOP 점수의 합으로 나눕니다. 두 번째 구성 요소와 동일합니다.

"정규 배포"태그를 제거 할 수있는 자유가 있습니다 ...


@Stephan Kolassa에게 감사드립니다. 솔루션을 찾는 데 도움이 될 것입니다.
Philip Fourie

2

HDOP를 독립 변수라고합니다. 나중에 가중치를 부여 할 때 사용하십시오. 따라서 좌표 세트가 있습니다-이것을 (x1, y1)이라고 부릅니다. (x2, y2) 등 ... 먼저 특이 치를 무시합니다. x 좌표의 가중 평균을 [(x1 * h1) + (x2 * h2) + .... + (xn * hn)] / [sum (h1, h2, ..., hn)]로 계산합니다. 여기서 h1, h2, ...는 HDOP 값입니다. y 좌표에 대해서도 동일하게 수행하십시오. 이것은 각 좌표에 대해 상당히 정확한 평균값을 줄 것입니다.

특이 치를 다루는 것은 약간 까다로울 수 있습니다. 그들이 이상치인지 어떻게 알 수 있습니까? 엄격하게는 관측치에 대한 통계적 적합성을 결정하고 신뢰 구간 내에서 이들이 참인지 아닌지를 결정해야합니다. 독 분포에 관한 질문을 떠올리게됩니다. 그러나 이것은 아마도 많은 작업 일 것이므로 나는 당신이 이것에 가고 싶지 않다고 확신합니다. 어쩌면 근사치를 사용합니까? 평균 좌표 값이 사용하기에 좋은 수단이라고 가정합니다. 그런 다음 표준 편차의 값을 결정하십시오. 표준 개발자 또는 독 분포는 1 / (평균)이라고 생각합니다. 그런 다음 정규 분포와 95 % 신뢰 구간을 사용하여 근사합니다. 관측치가 구간을 벗어난 경우 (평균-* 1.645 * std dev; 평균 + 1.645 * std dev) 이상치입니까? 이것을 줘.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.