여러 GPS 기반 보고서 에서 실제 위치 (fe 속도 캠)를 결정 해야하는 소프트웨어를 개발 중 입니다. 위치를보고 할 때 사용자가 운전을하므로보고가 매우 정확하지 않습니다. 이 문제를 해결하려면 동일한 위치에 대한 보고서를 클러스터링하고 평균을 계산해야합니다.
내 질문은 이러한 보고서를 클러스터링하는 방법에 관한 것 입니다. Expectation-maximation 알고리즘 과 k- 평균 군집화 에 대해 읽었 지만 이해 한 것처럼 실제 위치 수를 미리 결정해야합니다.
정확한 수의 실제 위치가 필요하지 않지만 대신 일부 가장자리 조건 (최소 거리)을 사용하는 다른 알고리즘이 있습니까?
보고서에는 경도 , 위도 및 정확도 (미터 단위)가 포함됩니다. 중복을 식별하는 데 사용될 수있는 이름이나 다른 것은 없습니다.
또 다른 장애물은 흔한 일이며 실제 위치에 대한 보고서는 하나뿐이라는 것입니다. 따라서 특이 치를 좋은 데이터와 구별하기가 어렵습니다.
1
"... 실제 위치 수를 미리 결정해야한다는 것을 이해했듯이 ..."라고 말했을 때 무슨 의미인지 잘 모르겠습니다. 정확하게 이해했다고 가정하면, 알고리즘에는 본질적으로 필요한 것이 없습니다 이. 보고서 수를 기준으로 클러스터 구성 요소 수를 늘릴 계획입니까?
—
Pat
두 번째 질문 :). 운전중인 사람이 귀하의 리포트를보고있는 경우 리포트 사이에 위치가 크게 변경 될 수 있습니다. 보고서에는 타임 스탬프와 함께 언제 가져 왔는지 알려줍니까?
—
Pat
안녕 Pat. 교통 체증이나 속도 캠에 대해 더 명확하게 이야기하고 있습니다. 1. k- 평균 군집화의 "k"는 군집 수를 나타냅니다. 제 경우에는 각 위치마다 하나의 클러스터가 있지만 다른 위치가 몇 개인 지 모르겠습니다. 2. 예. 타임 스탬프도 포함되어 있습니다. 그러나 나는 그 입장에만 관심이 있기 때문에 그것이 왜 중요한지를 이해하지 못합니다.
—
Christian Strempfer
1. 아, 그렇습니다. 따라서 알 수없는 위치가 있으며 각 위치는 하나 이상의 보고서를 생성합니다. 그러나 당신이 보는 모든 것은 일련의 보고서입니다. 관찰 된 보고서에 따라 위치의 수와 위치를 추론하려고합니다. 알았어? 2. 사용자가 보고서를 작성할 때 운전할 것이라고 말했기 때문에 타임 스탬프에 대해 걱정 합니다. 따라서 보고서가 매우 빠르게 연속적으로 나오지 않거나 속도가 매우 느리지 않으면 (교통 체증 인 경우 가능) 도로를 따라 한 위치가 울퉁불퉁 한 보고서 줄처럼 보입니다. 타임 스탬프가 여기에서 도울 수 있습니다
—
Pat
1. 그렇습니다. 2. 수동 작업이므로 한 번의 여행 동안 사용자 당 한 번만 위치를보고해야합니다. 그러나 당신이 옳습니다. 사용자가 실수로 두 번 클릭하면 중복을 처리해야하며 빠르게 운전할 때 보고서가 정확하지 않습니다. 그렇기 때문에 위치 간 최소 거리의 경계 조건을 언급했습니다. 약간의 마일이 퍼질 수있는 교통 체증을 무시하고 위치가 매우 작다고 가정하겠습니다.
—
Christian Strempfer