R을 사용하여 위도 / 경도 쌍에서 점 그룹을 작성합니까?


11

관심 지점의 위치를 ​​식별하기 위해 위도 / 경도 쌍을 포함하는 데이터베이스가 있습니다. 관심 지점을 10 개의 그룹으로 그룹화하고 싶습니다. 그룹은 지리적으로 로컬이고 정확히 10 개의 지점을 포함해야합니다. 각 그룹은 최소 영역이어야합니다.

나는 R에서 다양한 구현을 살펴 보았지만 아무도 볼 수는 없지만 명확한 클러스터 크기를 지정할 수는 없습니다.

이전에 맵 포인트를 고정 클러스터 크기로 그룹화 하도록 요청 했습니까? 그러나 나는 내 질문에서 좋은 대답을 얻을만큼 정확하다고 생각하지 않습니다.


지리적으로 로컬 -그룹이 크게 겹치지 않아야 함을 의미합니다. 내 응용 프로그램 (모니터링 목적으로 사람들을 그룹으로 할당)에서 각 그룹이 물리적 영역에서 가능한 한 작은 경우 이상적입니다.
최소 영역 -그룹 영역을 최소로 유지하려고합니다. 수십 개의 소그룹과 하나의 큰 그룹을 피하기 위해 각 그룹의 영역을 지정된 임계 값 아래로 유지하는 것으로 정량화 될 수 있다고 생각합니다.


2
찾고있는 것에 대해 좀 더 정확하게하는 것이 도움이 될 것입니다. "지리적 지역"및 "최소 지역"을 어떻게 정량화 하시겠습니까?
whuber

어떤 상황에서는 "최소 영역"과 "정확하게 10 점"이 상호 배타적이지 않습니까? 예를 들어, 1 마일의 "최소 영역"과 10 마일 내에 다른 기능이없는 기능 (이상치)이있을 경우 어떻게 사용할 수 있습니까?
RyanKDalton

몇 가지 예외가있을 것으로 예상되지만 수동으로 처리 할 수 ​​있습니다. 고정 크기 데이터 세트가 있으며 그룹 중 일부를 수동으로 조정하는 것을 신경 쓰지 않지만 나머지는 자동 솔루션을 원합니다! :)
Graeme Hilton


설명은 여전히 ​​자동화 된 방식으로 해결하기에는 너무 "손으로"입니다. 데이터를 공개 할 수 있습니까?
BradHards

답변:


1

나는 당신이 k- 최근 접 이웃 도구를 찾고 있다고 생각합니다. 이 유형의 도구를 사용하여 데이터 세트의 모든 포인트에서 가장 가까운 10 개의 이웃을 식별 할 수 있습니다. 이것에 대해 몇 가지 다른 옵션이있는 것 같으며 (일부는 다른 알고리즘을 사용하거나 약간 다른 기능을 가지고 있음) 어떤 옵션이 가장 좋은 옵션인지 잘 모르겠습니다. 그러나 다음은 몇 가지 링크입니다.

http://stat.ethz.ch/R-manual/R-patched/library/class/html/knn.html http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/kNN

결과가 클러스터링 알고리즘 또는 클러스터 앙상블 도구와 결합하여 겹치지 않는 지점이 거의없는 지점의 분류를 위해 유사한 이웃 집합이있는 지점의 클러스터를 식별해야 할 수 있습니다. 출력을 약간 수동으로 조정해야 할 수도 있지만 작업의 많은 부분을 자동화 할 수 있어야합니다.

일부 링크 : http://jmlr.csail.mit.edu/papers/volume3/strehl02a/strehl02a.pdf http://cran.r-project.org/web/packages/clue/vignettes/clue.pdf

한 번에이 모든 작업을 수행하고 클러스터 규칙에서 10 포인트를 적용하는 k- 평균 군집화 도구를 찾을 수도 있습니다 (총 포인트 수를 10으로 나누고 원하는 클러스터 수로 선택). 도구).


또한 YaRi 튜토리얼이 R에 도움이된다는 것을 알았습니다 : ahandel.myweb.uga.edu/resources.htm
Jezibelle
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.