나는 많은 파서를 코딩한다. 지금까지 파싱 및 브라우저 자동화를 위해 HtmlUnit 헤드리스 브라우저를 사용하고있었습니다.
이제 두 작업을 분리하고 싶습니다.
내 작업의 80 %가 구문 분석과 관련되어 있기 때문에 HtmlUnit에서 페이지를 먼저로드 한 다음 소스를 가져 와서 구문 분석하는 데 많은 시간이 걸리기 때문에 간단한 HTML 파서를 사용하고 싶습니다.
어떤 HTML 파서가 가장 좋은지 알고 싶습니다. 파서가 HtmlUnit 파서에 가까울수록 더 좋습니다.
편집하다:
기껏해야 최소한 다음 기능을 원합니다.
- 속도
- "id"또는 "name"또는 "tag type"으로 HtmlElement를 쉽게 찾을 수 있습니다.
더러운 HTML 코드를 청소하지 않으면 괜찮습니다. HTML 소스를 정리할 필요가 없습니다. HtmlElements를 이동하고 데이터를 수집하는 가장 쉬운 방법이 필요합니다.