«html-content-extraction» 태그된 질문

30
HTML 스크래핑 옵션? [닫은]
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 육년 전 . HTML 스크래핑을위한 Python 패키지 인 Beautiful Soup 을 시도하고 있습니다. 살펴 봐야 할 다른 HTML 스크래핑 패키지가 있습니까? …

30
Python을 사용하여 HTML 파일에서 텍스트 추출
파이썬을 사용하여 HTML 파일에서 텍스트를 추출하고 싶습니다. 브라우저에서 텍스트를 복사하여 메모장에 붙여 넣으면 본질적으로 동일한 결과를 원합니다. 형식이 잘못된 HTML에서 실패 할 수있는 정규 표현식을 사용하는 것보다 더 강력한 것을 원합니다. 많은 사람들이 뷰티플 수프를 추천하는 것을 보았지만 사용하는데 몇 가지 문제가있었습니다. 우선, JavaScript 소스와 같은 원치 않는 텍스트를 선택했습니다. …

8
정규식 일치의 일부 추출
HTML 페이지에서 제목을 추출하는 정규식을 원합니다. 현재 나는 이것을 가지고있다 : title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') 태그를 제거 할 필요가 없도록 <title>의 내용 만 추출하는 정규식이 있습니까?

10
BeautifulSoup Grab Visible Webpage Text
기본적으로 BeautifulSoup을 사용 하여 웹 페이지에 표시되는 텍스트 를 엄격하게 잡으려고합니다 . 예를 들어, 이 웹 페이지 는 제 테스트 케이스입니다. 그리고 주로 본문 텍스트 (기사)와 여기저기서 탭 이름 몇 개만 가져오고 싶습니다. 나는 내가 원하지 않는 많은 태그와 html 주석 을 반환하는 이 SO 질문 에서 제안을 시도했습니다 <script>. …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.