많은 임의의 사이트에서 많은 HTML을 소비하는 Ruby (1.9)로 크롤러를 작성하고 있습니다.
링크를 추출하려고 할 때 .scan(/href="(.*?)"/i)
nokogiri / hpricot 대신 사용하기로 결정했습니다 (주요 속도 향상). 문제는 이제 " invalid byte sequence in UTF-8
"오류 가 많이 발생한다는 것 입니다.
내가 이해 한 바에 따르면 net/http
라이브러리에는 인코딩 특정 옵션이 없으며 제공되는 항목은 기본적으로 제대로 태그가 지정되지 않았습니다.
들어오는 데이터로 실제로 작업하는 가장 좋은 방법은 무엇입니까? .encode
교체 및 유효하지 않은 옵션 세트로 시도했지만 지금까지 성공하지 못했습니다 ...
'U*'
상태 해제를 'C*'
?