팬더에서 두 개의 지리 데이터 프레임으로 가장 가까운 거리를 얻으십시오.


여기 내 첫 번째 지오 데이트 프레임이 있습니다.

!pip install geopandas
import pandas as pd
import geopandas

city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66},
           {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66},
         {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }]
city2 =  [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08},
           {'City':"Caracas","Country":"Venezuela","Latitude":10.48  ,"Longitude":-66.86}]
city1df = pd.DataFrame(city1)
city2df = pd.DataFrame(city2)
gcity1df = geopandas.GeoDataFrame(
    city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude))
gcity2df = geopandas.GeoDataFrame(
    city2df, geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude))


           City    Country  Latitude  Longitude                     geometry
0  Buenos Aires  Argentina    -34.58     -58.66  POINT (-58.66000 -34.58000)
1      Brasilia     Brazil    -15.78     -47.91  POINT (-47.91000 -15.78000)
2      Santiago      Chile    -33.45     -70.66  POINT (-70.66000 -33.45000)

그리고 두 번째 지리 데이터 프레임 : City2 :

         City    Country  Latitude  Longitude                     geometry
1        Bogota   Colombia      4.60     -74.08    POINT (-74.08000 4.60000)
2       Caracas  Venezuela     10.48     -66.86   POINT (-66.86000 10.48000)

거리와 같이 city1에서 city2까지 가장 가까운 도시의 세 번째 데이터 프레임을 원합니다.

           City    Country  Latitude  Longitude                     geometry    Nearest    Distance
0  Buenos Aires  Argentina    -34.58     -58.66  POINT (-58.66000 -34.58000)    Bogota    111 Km

geodjango와 dict를 사용하는 실제 솔루션은 다음과 같습니다 (그러나 너무 깁니다).

from django.contrib.gis.geos import GEOSGeometry
result = []
dict_result = {}
for city01 in city1 :
  dist = 99999999
  pnt = GEOSGeometry('SRID=4326;POINT( '+str(city01["Latitude"])+' '+str(city01['Longitude'])+')')
  for city02 in city2:
    pnt2 = GEOSGeometry('SRID=4326;POINT('+str(city02['Latitude'])+' '+str(city02['Longitude'])+')')
    distance_test = pnt.distance(pnt2) * 100
    if distance_test < dist :
      dist = distance_test
  dict_result[city01['City']] = city02['City']

내 노력은 다음과 같습니다.

from shapely.ops import nearest_points
# unary union of the gpd2 geomtries 
pts3 = gcity2df.geometry.unary_union
def Euclidean_Dist(df1, df2, cols=['x_coord','y_coord']):
    return np.linalg.norm(df1[cols].values - df2[cols].values,
def near(point, pts=pts3):
     # find the nearest point and return the corresponding Place value
     nearest = gcity2df.geometry == nearest_points(point, pts)[1]

     return gcity2df[nearest].City
gcity1df['Nearest'] = gcity1df.apply(lambda row: near(row.geometry), axis=1)

여기 :

    City    Country     Latitude    Longitude   geometry    Nearest
0   Buenos Aires    Argentina   -34.58  -58.66  POINT (-58.66000 -34.58000)     Bogota
1   Brasilia    Brazil  -15.78  -70.66  POINT (-70.66000 -15.78000)     Bogota
2   Santiago    Chile   -33.45  -70.66  POINT (-70.66000 -33.45000)     Bogota

문안 인사

@ azro 문제를 해결하고 초기 데이터에 솔루션을 추가했습니다.

당신의 도시는 남미에만 있습니까? 그렇지 않다면 서로 얼마나 떨어져있을 수 있습니까? city1에 몇 개의 도시가있을 수 있고 city2에 몇 개의 도시가있을 수 있습니까? 가장 빠른 솔루션을 찾는 것이 중요합니까, 아니면 적절한 시간에 실행되는 더 간단한 솔루션입니까? 후자 인 경우, 합리적인 시간은 얼마입니까?
월터 트 로스

@WalterTross 내 도시는 전 세계에 있으며 Fastet 솔루션을 찾고 있습니다. 감사합니다



먼저 교차 결합으로 두 개의 데이터 프레임을 병합합니다. 그리고 map파이썬에서 두 점 사이의 거리를 찾았습니다 . 내가 사용하는 map대부분의 시간은이보다 훨씬 빠르기 때문에, apply, itertuples, iterrows등 (참조 : https://stackoverflow.com/a/52674448/8205554 )

마지막으로 데이터 프레임별로 그룹화하고 거리의 최소값을 가져옵니다.

라이브러리는 다음과 같습니다.

import pandas as pd
import geopandas
import geopy.distance
from math import radians, cos, sin, asin, sqrt

사용되는 기능은 다음과 같습니다.

def dist1(p1, p2):
    lon1, lat1, lon2, lat2 = map(radians, [p1.x, p1.y, p2.x, p2.y])

    dlon = lon2 - lon1 
    dlat = lat2 - lat1 
    a = sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
    c = 2 * asin(sqrt(a)) 

    return c * 6373

def dist2(p1, p2):
    lon1, lat1, lon2, lat2 = map(radians, [p1[0], p1[1], p2[0], p2[1]])

    dlon = lon2 - lon1 
    dlat = lat2 - lat1 
    a = sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
    c = 2 * asin(sqrt(a)) 

    return c * 6373

def dist3(p1, p2):
    x = p1.y, p1.x
    y = p2.y, p2.x

    return geopy.distance.geodesic(x, y).km

def dist4(p1, p2):
    x = p1[1], p1[0]
    y = p2[1], p2[0]

    return geopy.distance.geodesic(x, y).km

그리고 데이터,

city1 = [
    'City': 'Buenos Aires',
    'Country': 'Argentina',
    'Latitude': -34.58,
    'Longitude': -58.66
    'City': 'Brasilia',
    'Country': 'Brazil',
    'Latitude': -15.78,
    'Longitude': -70.66
    'City': 'Santiago',
    'Country': 'Chile ',
    'Latitude': -33.45,
    'Longitude': -70.66

city2 = [
    'City': 'Bogota',
    'Country': 'Colombia ',
    'Latitude': 4.6,
    'Longitude': -74.08
    'City': 'Caracas',
    'Country': 'Venezuela',
    'Latitude': 10.48,
    'Longitude': -66.86

city1df = pd.DataFrame(city1)
city2df = pd.DataFrame(city2)

geopandas데이터 프레임 과 교차 결합

gcity1df = geopandas.GeoDataFrame(
    geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)
gcity2df = geopandas.GeoDataFrame(
    geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude)

# cross join geopandas
gcity1df['key'] = 1
gcity2df['key'] = 1
merged = gcity1df.merge(gcity2df, on='key')

math기능과 geopandas,

# 6.64 ms ± 588 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# find distance
merged['dist'] = list(map(dist1, merged['geometry_x'], merged['geometry_y']))

mapping = {
    'City_x': 'City',
    'Country_x': 'Country',
    'Latitude_x': 'Latitude',
    'Longitude_x': 'Longitude',
    'geometry_x': 'geometry',
    'City_y': 'Nearest',
    'dist': 'Distance'

nearest = merged.loc[merged.groupby(['City_x', 'Country_x'])['dist'].idxmin()]

           City    Country  Latitude  Longitude                     geometry  \
2      Brasilia     Brazil    -15.78     -70.66  POINT (-70.66000 -15.78000)   
0  Buenos Aires  Argentina    -34.58     -58.66  POINT (-58.66000 -34.58000)   
4      Santiago     Chile     -33.45     -70.66  POINT (-70.66000 -33.45000)   

  Nearest     Distance  
2  Bogota  2297.922808  
0  Bogota  4648.004515  
4  Bogota  4247.586882 


# 9.99 ms ± 764 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# find distance
merged['dist'] = list(map(dist3, merged['geometry_x'], merged['geometry_y']))

mapping = {
    'City_x': 'City',
    'Country_x': 'Country',
    'Latitude_x': 'Latitude',
    'Longitude_x': 'Longitude',
    'geometry_x': 'geometry',
    'City_y': 'Nearest',
    'dist': 'Distance'

nearest = merged.loc[merged.groupby(['City_x', 'Country_x'])['dist'].idxmin()]

           City    Country  Latitude  Longitude                     geometry  \
2      Brasilia     Brazil    -15.78     -70.66  POINT (-70.66000 -15.78000)   
0  Buenos Aires  Argentina    -34.58     -58.66  POINT (-58.66000 -34.58000)   
4      Santiago     Chile     -33.45     -70.66  POINT (-70.66000 -33.45000)   

  Nearest     Distance  
2  Bogota  2285.239605  
0  Bogota  4628.641817  
4  Bogota  4226.710978 

사용하고자하는 경우 pandas대신 geopandas,

# cross join pandas
city1df['key'] = 1
city2df['key'] = 1
merged = city1df.merge(city2df, on='key')


# 8.65 ms ± 2.21 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)

# find distance
merged['dist'] = list(
        merged[['Longitude_x', 'Latitude_x']].values, 
        merged[['Longitude_y', 'Latitude_y']].values

mapping = {
    'City_x': 'City',
    'Country_x': 'Country',
    'Latitude_x': 'Latitude',
    'Longitude_x': 'Longitude',
    'City_y': 'Nearest',
    'dist': 'Distance'

nearest = merged.loc[merged.groupby(['City_x', 'Country_x'])['dist'].idxmin()]

           City    Country  Latitude  Longitude Nearest     Distance
2      Brasilia     Brazil    -15.78     -70.66  Bogota  2297.922808
0  Buenos Aires  Argentina    -34.58     -58.66  Bogota  4648.004515
4      Santiago     Chile     -33.45     -70.66  Bogota  4247.586882


# 9.8 ms ± 807 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# find distance
merged['dist'] = list(
        merged[['Longitude_x', 'Latitude_x']].values, 
        merged[['Longitude_y', 'Latitude_y']].values

mapping = {
    'City_x': 'City',
    'Country_x': 'Country',
    'Latitude_x': 'Latitude',
    'Longitude_x': 'Longitude',
    'City_y': 'Nearest',
    'dist': 'Distance'

nearest = merged.loc[merged.groupby(['City_x', 'Country_x'])['dist'].idxmin()]

           City    Country  Latitude  Longitude Nearest     Distance
2      Brasilia     Brazil    -15.78     -70.66  Bogota  2285.239605
0  Buenos Aires  Argentina    -34.58     -58.66  Bogota  4628.641817
4      Santiago     Chile     -33.45     -70.66  Bogota  4226.710978

이 거리는 지구 평탄화를 고려하지 않은 근사 공식으로 계산됩니다. geopy.distance.distance()동일한 3 개의 거리를 사용 하면 2285, 46294227킬로미터가됩니다.
월터 트 로스

이 값을 링크로 확인하십시오 : distance.to/-33.45,-70.66/4.6,-74.08 무엇이 잘못 되었습니까?
E. Zeytinci

내가 더 신뢰한다는 사실을 제외 geopy하고는 웹 사이트로서 더 많은 edwilliams.org/gccalc.htm을 신뢰 하는데 , 이는 동의합니다 geopy. NOAA 웹 사이트 ( nhc.noaa.gov/gccalc.shtml )는 이전 웹 사이트를 기반으로하지만 다른 결과를 낸다고 말합니다. 아마도 이전 버전의 이전 버전을 기반으로 할 것입니다.
월터 트 로스


나는 그것이있는 솔루션을 찾기 위해 매우 어려운 것 같아요 시간의 복잡성을 보다 더 O (m · N) 의 크기입니다 m과 n, city1city2. 거리 비교 (유일한 O (m · n) 연산)를 유지하고 numpy 및 pandas가 제공하는 벡터화 된 연산을 활용하면 합리적인 입력 크기에 속도가 문제가되지 않습니다.

아이디어는 구의 거리를 비교하기 위해 3D에서 점 사이의 거리를 비교할 수 있다는 것입니다. 가장 가까운 도시는 또한 통과에 가장 가까운 하나 를 통해 구. 또한 일반적으로 거리를 계산하기 위해 제곱근을 사용하지만 거리 만 비교하면 제곱근을 피할 수 있습니다.

from geopy.distance import distance as dist
import numpy as np
import pandas as pd

def find_closest(lat1, lng1, lat2, lng2):
    def x_y_z_of_lat_lng_on_unit_sphere(lat, lng):
        rad_lat, rad_lng = np.radians(lat), np.radians(lng)
        sin_lat, sin_lng = np.sin(rad_lat), np.sin(rad_lng)
        cos_lat, cos_lng = np.cos(rad_lat), np.cos(rad_lng)
        return cos_lat * cos_lng, cos_lat * sin_lng, sin_lat
    x1, y1, z1 = x_y_z_of_lat_lng_on_unit_sphere(lat1, lng1)
    x2, y2, z2 = x_y_z_of_lat_lng_on_unit_sphere(lat2, lng2)
    return pd.Series(map(lambda x, y, z:
                         ((x2-x)**2 + (y2-y)**2 + (z2-z)**2).idxmin(),
                         x1, y1, z1))

city1 = [{"City":"Tokyo",    "Ctry":"JP", "Latitude": 35.68972, "Longitude": 139.69222},
         {"City":"Pretoria", "Ctry":"ZA", "Latitude":-25.71667, "Longitude": 28.28333},
         {"City":"London",   "Ctry":"GB", "Latitude": 51.50722, "Longitude": -0.12574}]
city2 = [{"City":"Seattle",  "Ctry":"US", "Latitude": 47.60972, "Longitude":-122.33306},
         {"City":"Auckland", "Ctry":"NZ", "Latitude":-36.84446, "Longitude": 174.76364}]
city1df = pd.DataFrame(city1)
city2df = pd.DataFrame(city2)

closest = find_closest(city1df.Latitude, city1df.Longitude, city2df.Latitude, city2df.Longitude)

resultdf = city1df.join(city2df, on=closest, rsuffix='2')
km = pd.Series(map(lambda latlng1, latlng2: round(dist(latlng1, latlng2).km),
                   resultdf[['Latitude',  'Longitude' ]].to_numpy(),
                   resultdf[['Latitude2', 'Longitude2']].to_numpy()))
resultdf['Distance'] = km
#        City Ctry  Latitude  Longitude     City2 Ctry2  Latitude2  Longitude2  Distance
# 0     Tokyo   JP  35.68972  139.69222   Seattle    US   47.60972  -122.33306      7715
# 1  Pretoria   ZA -25.71667   28.28333  Auckland    NZ  -36.84446   174.76364     12245
# 2    London   GB  51.50722   -0.12574   Seattle    US   47.60972  -122.33306      7723

직교 좌표 인 것처럼 위도와 경도를 사용하는 솔루션은 자오선 (동일한 경도의 선)을 따라 극점으로 이동하면 서로 더 가까워지기 때문에 잘못되었습니다.


이 솔루션은 아마도 문제를 해결하는 가장 빠른 방법은 아니지만 트릭을 수행 할 것이라고 믿습니다.

#New dataframe is basicly a copy of first but with more columns
gcity3df = gcity1df.copy()
gcity3df["Nearest"] = None
gcity3df["Distance"] = None

#For each city (row in gcity3df) we will calculate the nearest city from gcity2df and 
fill the Nones with results

for index, row in gcity3df.iterrows():
    #Setting neareast and distance to None, 
    #we will be filling those variables with results

    nearest = None
    distance = None
    for df2index, df2row in gcity2df.iterrows():
        d = row.geometry.distance(df2row.geometry)
        #If df2index city is closer than previous ones, replace nearest with it
        if distance is None or d < distance:
            distance = d
            nearest = df2row.City 
    #In the end we appends the closest city to gdf
    gcity3df.at[index, "Nearest"] = nearest
    gcity3df.at[index, "Distance"] = distance

도 단위가 아닌 미터 단위로 작업해야하는 경우 언제든지 레이어를 다시 투영 할 수 있습니다 (Walter가 의미하는 실수도 지워집니다). gcity3df = gcity3df.to_crs({'init': 'epsg:XXXX'})XXXX는 전 세계 지역에서 사용되는 crs의 epsg 코드로 수행 할 수 있습니다 .

