ESRI의 대규모 지오 코딩 및 처리


9

네, ESRI 세계에서 얼마나 큰 데이터 세트를 사용하고 있는지에 대한 비공식적 인 쿼리 / 설문 조사를 생각합니다 ...

전 주 차원의 데이터 세트를 구축하고 유지 관리하고 있습니다. Google 시스템의 소포 당 여러 우편물 주소. 많은 곳에서 거리 네트워크 또는 USPS AMS / AIS 데이터로부터 계산 된 이론적 주소를 사용하고 있습니다. 따라서 내 주소 목록은 대략 1,350 만 개의 주소이며 월별 또는 분기별로 증가합니다.

현재 누구든지 지속적인 데이터 세트에서이 주소의 주소 / 적절한 조회 정보 시스템을 유지하고 있습니까?

다른 사람들이 이러한 대규모 데이터 세트를 처리하는 방법에 대해 공동 작업하거나 더 이야기하고 싶습니다. 교차 또는 공간 조인과 같은 작업을 수행하려고 할 때 ESRI 소프트웨어가 폭발하는 것처럼 보이는 문제가 있습니다. ESRI에 따르면 이러한 종류의 문제는 보이지 않지만 9.3.1 이후 로이 문제가 발생했기 때문에 여러 컴퓨터에서 다시 만들 수 있기 때문에이 작업을 수행하는 최초의 유일한 사람이 될 수는 없습니다.

내 플랫폼은 현재 데스크탑의 ESRI ArcGIS 10이며 GEOMETRY 공간 객체를 사용하여 SQL2008 백엔드에서 ArcSDE 9.3.1-sp1과 통신합니다. 그래서 나는 정말 이국적인 것을하고 있지 않습니다. 하지만 여전히 일부 지역에서는 봉투를 밀고있는 것 같습니다.

[더욱이]

내가 관심이있는 것은 다른 사람들 이이 데이터 세트를 처리하기 위해 프로세스를 최적화하기 위해 수행하는 작업입니다. 앞으로 한 달에 백만 건의 레코드를 추가 할 예정이며 다른 프로세스를 실행하고 추가 분석을 위해 데이터를 연결하여 복잡한 조인을 처리하기 시작하면 지오 코딩 등은 문제가되지 않습니다. 자, 당신은 Only_FID를 사용하여 교차 / 오버레이 / 아이덴티티에서 데이터를 출력하고 조인 할 중간 테이블도 얻습니다. 그러나 해당 테이블 생성을 분할하고 정복하려고 시도하면 소스 데이터를 작업 영역으로 분할해야하지만 다시 병합 할 수없는 IDS가 반복되는 문제가 발생하기 시작합니다. 따라서 더 작은 데이터 블록이 남아있어 쉽게 다시 만들 수 없습니다.

데이터를 카운티 별 규모로 세분화 한 다음 공간 뷰를 사용하여 데이터를 다시 결합하는 옵션에 대해 생각하고 있습니다. 발자취.


3
6 천만 개의 주소가 Oracle Spatial (11g) ArcSDE에서 지오 코딩되고 ArcGIS 및 Web App (Internal)로 시각화되었습니다. 지오 코딩 된 주소가 아니라 퍼지 (미스 매치 된 주소)가 아닙니다. scdhec.gov/gis/presentations/ESRI_Conference_08/tws/workshops/…
Mapperz

지오 코딩에 문제가 없었습니다. 큰 문제가 발생하면 다른 프로세스가 매우 어려워지는 연속 프로세스가 필요합니다. 교차, 공간 조인 등과 같은 함수 / 태스크는 모델링을 위해 고도로 표준화 된 환경에서 다른 데이터에 조인해야합니다.
DEWright

공간 데이터가 색인되어 있습니까? 문서에 따르면 SQL Server는 B-Tree 인덱스를 사용합니다. GIST 인덱스를 사용하여 PostGIS 데이터베이스에 데이터를로드하고 성능을 비교하십시오. SQL Server 문제인지 알려줍니다.
Sean

그런 종류의 문제에는 문제가 없지만 전반적으로 볼 수있는 것은 너무 많은 포인트를 다루고 오랫동안 실행되는 깊은 기능을 수행하면 최적화하는 방법을 찾는 것입니다. 그리고 다른 대규모 사용자들이 무엇을하고 있는지 궁금합니다.
DEWright

그 질문이 개방형이라면 질문을 수정하고 커뮤니티 위키를 만들어야합니다.
Sean

답변:


1

(오래된) 개방형 질문이므로 개방형 답변을 제공합니다. 데이터베이스를 올바르게 사용하면 많은 시간을 절약 할 수 있습니다. 예를 들어 최근 Oracle에서 많은 행을 삭제하고 싶을 때 무언가를하는 분명한 방법은 반드시 가장 빠른 것은 아닙니다. 보내는 것만으로 밝혀졌습니다. delete from TABLE1 where ID = 123각 기능이 엄청나게 느리고 멋진 일이 있습니다. 그것을 만들기 위해 수십 배 더 빠르게.

따라서 기본적으로 병목 현상 인 특정 문제를 발견하면 해당 병목 현상과 관련된 특정 질문을 전문가에게 문의하십시오. 따라서 ArcGIS 측 (아마도 ESRI 포럼 또는 ESRI 지원)에 대한 것이지만 데이터베이스 측 문제 (및 거기에서 수행하면 일반적으로 더 빠를 것)에 대해서는 http://www.hp.com/go/ 에서 문의 하십시오. : //www.stackoverflow.com


그리 개방적이지 않았습니다. 이 주제를 다루는 더 나은 이론적 방법을 찾고 있습니다. 나의 가장 최근의 길은 나 자신의 SQL2008 DB와 통신하기위한 고유 한 퍼지 조회 논리를 구축하는 것이 었습니다. ESRI 엔진에 대한 종속성을 제거하여 올바르게 조정 된 색인을 사용하여 더 빨리 시도하십시오. BING 또는 Google 엔진의 내부에 대해 충분히 알 수 없으므로 자체적으로 세밀한 논리를 사용한다고 가정 할 수 있습니다.
DEWright

당신은 그들의 연구 논문에서 구글의 무대 뒤의 꽤 알아낼 수 - research.google.com/pubs/papers.html
GIS-조나단
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.