클러스터링 궤적 ((x, y) 포인트의 GPS 데이터) 및 데이터 마이닝


14

인간 대포를위한 사무실에서 또 하루.

GPS 데이터 세트 분석에 대한 두 가지 질문이 있습니다.

1) 궤적 추출 양식에 기록 된 GPS 좌표의 거대한 데이터베이스가 (latitude, longitude, date-time)있습니다. 연속 기록의 날짜-시간 값에 따르면, 사람이 따르는 모든 궤적 / 경로를 추출하려고합니다. 예를 들어; 예를 들어 M, (x,y)쌍 에서 시간 까지 지속적으로 변화하고 있습니다 N. 후에 쌍 N의 변화가 (x,y)줄어들고,이 시점 M에서N궤도라고 할 수 있습니다. 궤적을 추출 할 때 따라야 할 적절한 접근 방법입니까? 제안 할 수있는 잘 알려진 접근법 / 방법 / 알고리즘이 있습니까? 이러한 요점을 효율적으로 유지하도록 제안하고 싶은 데이터 구조 나 형식이 있습니까? 아마도 각 궤도마다 속도와 가속도를 알아내는 것이 유용할까요?

2) 궤적 채굴 모든 궤적을 따라 가고 / 경로를 가져 오면 어떻게 비교 / 클러스터 할 수 있습니까? 시작 지점과 종료 지점이 비슷한 지 알고 싶습니다. 중간 경로는 어떻게 비교됩니까?

두 경로 / 경로를 비교하고 비슷한 지 여부를 어떻게 결정합니까? 더욱이; 유사한 경로를 어떻게 클러스터링합니까?

이 문제에 관한 연구 또는 유사한 것을 지적 해 주시면 대단히 감사하겠습니다.

개발은 파이썬으로 진행되지만 모든 종류의 라이브러리 제안은 환영합니다.

나는 StackOverflow에서 똑같은 질문 /programming/4910510/comparing-clustering-trajectories-gps-data-of-xy-points-and-mining-the-data 에서 열었습니다 . 여기에 더 많은 답변을 얻을 것이라고 생각했습니다 ...


1
좋은 답변은 이 분석을 수행하는 이유에 주의를 기울일 것 입니다. "사람"은 어떤 활동을하고 있습니까? 이 문맥에서 "궤도"란 무엇을 의미합니까? 왜 궤도에 관심이 있습니까? 궤적이 "유사" 하다는 것은 무엇을 의미 합니까? 당신의 설명은 적절한 답변을 제안 할 것입니다; 명확하지 않으면 적절한 답변을 얻는 것이 운과 추측의 문제가 될 것입니다.
whuber

글쎄, 나는 그 사람의 일상을 알아내는 데 관심이 있습니다. 그녀는 매일 / 매주 / 매월 어디로 가고 있으며 그곳에 갈 때 일반적으로 어떤 경로 / 경로를 따르나요? 그녀는 거의 따라 가지 않는 경로는 무엇입니까?
Murat

데이터베이스에는 1-2 초의 빈도로 한 달 이상 사람들의 기록 된 GPS 포인트가 포함됩니다. 나는 그들이 무엇을하고 있는지 모른다. 사실, 내가 알아내는 것에 관심이 있습니다.
Murat

1
@ 무라트 괜찮습니다. 더 정확하게합시다. 사람이 집이나 사무실을 돌아 다닐 때 정지 해있는 것을 고려하거나 궤도를 추적하려고합니까? 두 궤적이 "유사하다"고 말하면 A와 B 사이의 동일한 경로를 따르는 것 같습니까? 아니면 둘 다 A에서 B로갑니다 (아마도 다른 경로에 따라 멈추지 않고). BTW, 데이터가 완전합니까, 또는 데이터가 누락되었거나 잘못된 것으로 알려진 기간이 있습니까?
whuber

1
@ user5013-Microsoft Research가 발표 한 내용을 살펴보십시오. "총 거리는 약 120 만 킬로미터이고 총 지속 시간은 48,000 시간 이상인 17,621 개의 궤도를 포함하고 있습니다." research.microsoft.com/ko-kr/downloads/…
Murat

답변:


2

당신과 비슷한 동기를 가지고 있기 때문에 관심을 가질만한 두 가지 기사 :

인간 이동성의 예측 한계 : Chaoming Song, Zehui Qu, Nicholas Blumm, Albert-László Barabási. 과학 , Vol. 327, No. 5968. (2010 년 2 월 19 일), pp. 1018-1021.

Marta C. Gonzalez, Cesar A. Hidalgo, Albert-Laszlo Barabasi의 개별 인간 이동성 패턴 이해 자연 , Vol. 453, No. 7196. (2008 년 6 월 5 일), 779-782 쪽.

두 연구는 동일한 데이터를 사용합니다. 이는 동일한 데이터를 사용하지만 공간이나 시간의 정밀도 수준은 아닙니다. 나는 당신이 궤적으로 찾고자하는 것을 묘사 할 것이라 생각하지 않지만, 그것을 무엇이라고 부르는지 확실하지 않습니다. "궤도"의 시작 / 끝 노드를 정확히 클러스터하고 싶은 이유는 무엇입니까?


2

PySAL-Python Spatial Analysis Library가 좋은 시작일 수 있습니다-http: //code.google.com/p/pysal/

특히 자기 상관 섹션 :

공간 자기 상관은 일련의 공간 단위에 대한 속성 값의 비 랜덤 패턴과 관련됩니다. 이것은 공간의 값 유사성을 반영하는 양의 자기 상관과 공간의 음의 자기 상관 또는 값의 비 유사성의 두 가지 일반적인 형태를 취할 수 있습니다. 어느 경우이든, 자기 상관은 관측 된 공간 패턴이 공간에서 작동하는 임의의 프로세스 하에서 예상되는 것과 상이 할 때 발생한다.

http://pysal.org/1.2/users/tutorials/autocorrelation.html

점 패턴 분석을 위해 R 라이브러리 http://cran.r-project.org/web/views/Spatial.html 사용을 고려할 수도 있습니다 .

다른 R 패키지 :

동물 추적을위한 공간 데이터 액세스 및 조작을위한 기능. 동물 트랙 데이터에서 속도를 필터링하고 소요 시간 플롯을 만듭니다.

또한 OSM에서 사용 가능한 기존 선형 전송 네트워크 (도로 / 레일)에 포인트를 맞추면 분석을 단순화 할 수 있습니다. 그런 다음이 라인들과 특정 시간에 얼마나 많은 사람들이 사용하는지에 따라 상징 할 수 있습니다.


자기 상관을 조사 할 것을 제안하는 질문의 맥락에서 말이되지 않습니다. 어떤 속성의 자동 상관?
Andy W

GPS 판독 값의 타임 스탬프를 사용하여 하루 중 다른 시간에 사용되는 도시 또는 도시의 영역을 확인할 수 있습니다. 주요 연구가 사람들이 무엇을하는지, 어떻게 사람들이 거기에 도착하는지 찾는 것이 확실하지는 않지만.
geographika

또한 그룹화되고 "지속 기간"매개 변수가 주어진 개인에 대해 밀접한 관련 지점이있는 파생 지점 데이터 세트를 분석 할 수 있습니다.
geographika

첫 번째 의견은 분석 단위를 사람에서 장소로 변경합니다. 나는 그 질문이 다소 모호하다는 것에 동의하지만, OP가 장소를 모으고 싶어한다는 것을 암시하는 것은 아무것도 없다. 두 번째 주석에 대한 인수를 볼 수 있습니다 (점은 속력 속성을 가짐). 흥미로운 개념이지만 꽤 추상적이며 참신하므로 공간적 자기 상관을 검사하는 것이 좋습니다. 나는 pysal 및 R 라이브러리가 관심이 있다는 것에 동의합니다.
Andy W

2

사람들의 궤적이나 경로에 대해서는 많이 언급 할 수 없지만, 당신은 클러스터와 시간 접근 방식에 따라 올바른 길을 가고 있다고 생각합니다.

에서 사용할 수있는 스노우 레오파드 (Snow Leopard) 보호 협회에서 몇몇 사람들과 함께 작업하는 동안 작년에 함께 Esri는 UC에 대한 데모를 넣어 : http://resources.arcgis.com/gallery/file/geoprocessing/details?entryID=1F9F376F-1422-2418 -7FBC-C359E9644702

지정된 기준에 따라 Snow Leopards의 "공급 사이트"(클러스터)를 찾습니다.

  • 그 점들이 어떻게 분류 되었는가 (서로 거리)
  • 포인트의 최소 임계 값
  • 점은 순차적이어야합니다 (선형 순서로 수집되어야하므로 분석의 쉬운 부분)

Esri 도구를 사용하여 거리 분석을 수행하는 동안 내부의 python 스크립트는 서로 가까운 점을 알면 클러스터링 아이디어를 도울 수 있습니다. (그래프 이론을 사용합니다 : http://en.wikipedia.org/wiki/Graph_theory )

다른 답변에서 언급했듯이 결정을 내리는 데 필요한 속성을 결정하기위한 논문이 있습니다.

분석은 Knopff, KH, ARA Knopff, MB Warren 및 MS Boyce의 개념을 기반으로합니다. 쿠거 포식 매개 변수를 추정하기위한 글로벌 포지셔닝 시스템 원격 측정 기술 평가. 야생 동물 관리 저널 73 : 586-597.


2

궤적 세트에서 모든 종류의 클러스터링을 실행하려면 궤적 쌍의 유사성 또는 거리를 계산할 수있는 방법이 필요합니다. 이를위한 몇 가지 기존 방법이 있으며, 특수한 경우를 위해 또는 기존 방법의 단점을 해결하기 위해 새로운 방법이 개발되고 있습니다 (저는 개인적으로 박사 학위 논문을위한 새로운 방법을 연구하고 있습니다). 잘 알려진 알고리즘은 다음과 같습니다.

  • 가장 가까운 페어 거리 : 두 궤적의 거리를 서로 가장 가까운 포인트 페어의 거리로 정의하십시오. 궤적은 동일한 개수의 점으로 구성되어야합니다.
  • 쌍의 거리 합 : 각 점 쌍의 거리를 계산하고 합산합니다. 궤도 길이가 동일한 경우에만 작동
  • DTW (Dynamic Time Warping) 거리 :이 알고리즘은 서로 다른 양의 측정 지점의 궤도를 처리하도록 개발되었습니다. 포인트 쌍에서 작동하며, 다른 하나가 "너무 빠르게"이동하는 경우 한 궤적의 점을 페어 거리 계산에서 여러 번 사용할 수 있습니다. DTW 일러스트레이션( 위키 백과의 이미지 )
  • 가장 긴 공통 하위 시퀀스 : 이름에서 알 수 있듯이 원래 경로가 서로 가까이 이동하는 가장 긴 하위 궤적의 길이로 두 궤적의 유사성을 정의합니다.
  • 실제 시퀀스의 편집 거리 (EDR)와 실제 거리의 편집 거리 (ERP)의 편집 거리는 궤적 중 하나를 다른 궤적으로 변환하는 데 필요한 편집 작업 (추가, 제거 또는 교체)의 수로 유사성을 정의합니다.

이 분야에 종사하고 있다면 많은 Microsoft Asia 리서치 담당자가 제공 한 "공간 컴퓨팅으로 컴퓨팅"이라는 책을 적극 권장합니다.


0

이것은 당신에게도 도움이 될 수 있습니다.

Orellana D, Wachowicz M. 보행자 이동성의 서스펜션 패턴 탐색. 지오그 항문. 2011; 43 (3) : 241-60. PubMed PMID : 22073410.

이 블로그를 살펴보십시오.

ideasonmovement.wordpress.com/

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.