최근에 정규식을 사용하여 웹 사이트의 HTML을 구문 분석하여 필요한 데이터를 얻는 것이 최선의 조치가 아니라는 것을 알게되었습니다.
그래서 내 질문은 간단합니다. 그렇다면이 데이터를 얻는 가장 / 가장 효율적이며 일반적으로 안정적인 방법은 무엇입니까?
나는 주목해야한다 :
- API가 없습니다
- 데이터를 얻을 수있는 다른 소스는 없습니다 (데이터베이스, 피드 등 없음)
- 소스 파일에 액세스 할 수 없습니다. (공개 웹 사이트의 데이터)
- 데이터가 HTML 페이지의 표에 표시되는 일반 텍스트라고 가정 해 봅시다.
나는 현재 프로젝트에 파이썬을 사용하고 있지만 언어 독립적 인 솔루션 / 팁은 좋을 것입니다.
부수적 인 질문으로 : Ajax 호출로 웹 페이지를 구성 할 때 어떻게해야합니까?
편집하다:
HTML 파싱의 경우 데이터를 얻는 안정적인 방법이 없다는 것을 알고 있습니다. 페이지가 변경되는 즉시 구문 분석기가 완료됩니다. 이 경우 안정적인 의미는 페이지를 구문 분석하는 효율적인 방법으로 페이지가 변경 되지 않는 한 항상 동일한 결과 집합 (같은 데이터 세트에 대해)을 나에게 전달하는 효율적인 방법 입니다.