내 목표는 뷰 3을 사용하여 쿼리 할 수있는 Drupal 7을 사용하여 몇 개의 매우 큰 플랫 파일 데이터 소스 ( CSV , 고정 너비 및 XML 문서)에 포함 된 읽기 전용 데이터 에 액세스하기위한 빠르고 안정적이며 자동화 된 방법을 생성하는 것입니다. 구성 단위. 이미 사용 가능한 모듈을 사용하고 싶지만 사용자 정의 모듈을 작성하는 것도 옵션입니다.
작업에 적합하지 않은 모듈과 방법을 배제하기 위해 작업중 인 파일에 대한 통계는 다음과 같습니다.
- 연간 수입량 : 8,500,000 행 CSV 파일. (연간 삭제 및 재로드. 기본 키가 있습니다.)
- 주간 가져 오기 : 350,000 줄 고정 너비 파일. (매주 삭제 및 다시로드되었습니다. 기본 키는 없습니다 .)
- 시간별 가져 오기 : 3,400 줄 CSV 파일. (가능한 한 자주 업데이트하고 동기화하길 원하지만 매 20 분을 넘지 않아야합니다. 기본 키가 있습니다)
- 일일 가져 오기 : 200 개의 항목 XML 파일. (매일 삭제 및 새로 고침. 기본 키가 있음)
세 가지 형식 간 변환은 문제가되지 않으며 가져 오기 성능을 향상 시키거나 더 나은 도구를 사용할 수있게하는 경우 수행 할 수 있습니다. ( CW 및 고정 너비에 대한 AWK 등) cron 및 sh 스크립트 를 통해 검색 및 변환 자동화가 쉬워 지지만 여전히 Drupal 7 통합을 자동화해야합니다. veew가 관계를 사용하여 데이터를 참조 할 수있는 한 사용자 정의 테이블을 사용할 수도 있습니다.
Drupal 7과 이러한 유형의 데이터 통합을 달성하는 가장 좋은 방법은 무엇입니까? 또한 데이터 또는 달성하려고하는 것에 관한 중요한 세부 정보를 남기지 않습니까?
현재 솔루션을 찾기 위해 찾고있는 몇 가지 프로젝트가 있습니다. 더 큰 데이터 가져 오기로 작업 할 때 다른 경로를 결정할 수 있도록이 기능을 확장하고 싶습니다.
노드로 데이터 가져 오기 :
- 피드 (D7의 경우 현재 알파)
피드 는 데이터를 안정적으로 가져옵니다. 작은 데이터 소스에는 속도가 적당하지만 300k + 테이블에는 속도가 너무 느립니다.
cron 및 Job Scheduler (현재 Alpha for D7)를 사용하여 자동화 할 수 있습니다 .
소스 데이터에 색인 또는 고유 키가 없으면이를 사용하기가 어렵습니다. 피드보다 빠르지 만 여전히 큰 테이블을 가져 오는 데 느립니다.
자동화는 drush 및 cron을 통해 제공됩니다.
노드 대신 사용자 정의 테이블
- 데이터 모듈 (현재 D7 용 Alpha)
데이터 모듈은 매우 유망한 보이지만, 그 순간에 D7 매우 버그가 있습니다. 자동화 및 가져 오기 속도 요구 사항은 데이터를 사용하여 쉽게 충족 할 수 있지만 안정성이 부족합니다. 뷰 통합 (링크 D6입니다) 매우 유망한 보인다.
- 테이블 마법사 (D7에는 사용할 수 없음)
이것을 참조로 추가했습니다. 이 시점에서 D7 후보는 없지만 사용자 정의 모듈의 시작점으로 사용할 수 있습니다.
- 뷰 스키마 (폐기 됨, D6 만 해당)
이것을 참조로 추가했습니다. 이것은 Drupal 6의 테이블 마법사에 의해 흡수 된 것으로 보입니다. 다시, 참조 용으로 만 추가되었습니다.
- 수입 업체 (D7의 RC2)
뷰 통합 을 위해 테이블 마법사 (D6 만 해당) 가 필요한 것 같습니다 . 참조 용으로 추가되었지만 조회 요구 사항을 충족하지 않습니다.
@MPD-가능한 솔루션으로 "Custom Tables"를 추가하고 모듈을 확장했습니다. 이 추가 감사합니다.