XML, HTML 및 XHTML 문서에 대한 올바른 컨텐츠 유형은 무엇입니까?
이러한 종류의 파일 만 가져 오는 간단한 크롤러를 작성해야합니다.
요즘 http://example.net/index.html 은 예를 들어 mod_rewrite로 인해 JPEG 파일을 제공 할 수 있으므로 응답 헤더에서 콘텐츠 유형을 확인하고 허용 된 콘텐츠 유형 목록과 비교해야합니다.
그러한 목록은 어디서 얻을 수 있습니까?
조각에 대해서는 stackoverflow.com/q/19303361/287948 및 w3.org/TR/xml-fragment
—
Peter Krauss를