«html-parsing» 태그된 질문

HTML 구문 분석은 HTML 문서의 직렬화를 사용하고 프로그래밍 방식으로 작업 할 수있는 표현을 생성하는 프로세스입니다 (예 : 문서에서 데이터를 추출하기 위해). HTML 사양은 모든 주요 브라우저에서 구현되는 HTML 구문 분석을위한 표준 알고리즘을 정의합니다.


30
HTML 스크래핑 옵션? [닫은]
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 육년 전 . HTML 스크래핑을위한 Python 패키지 인 Beautiful Soup 을 시도하고 있습니다. 살펴 봐야 할 다른 HTML 스크래핑 패키지가 있습니까? …

9
JS로 HTML 문자열 구문 분석
솔루션을 검색했지만 관련성이 없으므로 여기 내 문제가 있습니다. HTML 텍스트가 포함 된 문자열을 구문 분석하고 싶습니다. JavaScript로하고 싶습니다. 이 라이브러리를 사용해 보았지만 문자열이 아닌 현재 페이지의 HTML을 구문 분석하는 것 같습니다. 아래 코드를 시도하면 페이지 제목이 변경되므로 var parser = new HTMLtoDOM("<html><head><title>titleTest</title></head><body><a href='test0'>test01</a><a href='test1'>test02</a><a href='test2'>test03</a></body></html>", document); 내 목표는 문자열처럼 읽은 …

18
정규 표현식을 사용하여 HTML 구문 분석 : 왜 안되나요?
asker가 HTML에서 일부 정보를 가져 오기 위해 정규식을 사용하는 stackoverflow에 대한 모든 질문은 필연적으로 HTML을 구문 분석하기 위해 정규식을 사용하지 않는다는 "응답"을 갖습니다. 왜 안돼? Beautiful Soup 과 같이 인용 부호가없는 "실제"HTML 파서가 있다는 것을 알고 있으며 , 강력하고 유용하다고 확신하지만, 간단하고 빠르거나 더러운 일을하는 이유는 무엇입니까? 몇 가지 정규 …

3
어떤 HTML 파서가 최고입니까? [닫은]
현재로서는이 질문이 Q & A 형식에 적합하지 않습니다. 답변, 사실, 참고 자료 또는 전문 지식을 통해 답변이 뒷받침 될 것으로 예상되지만이 질문은 토론, 논쟁, 여론 조사 또는 광범위한 토론을 요구할 것입니다. 이 질문을 개선하고 다시 열 수 있다고 생각 되면 도움말 센터 를 방문하여 안내를 받으십시오 . 휴일 칠년 전에 …

7
파이썬을 사용하여 HTML 파싱
파이썬 목록 / 사전 / 객체의 형태로 태그를 얻는 데 도움이되는 Python 용 HTML 파서 모듈을 찾고 있습니다. 양식의 문서가있는 경우 : <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something here</div> <div>Something else</div> </div> </body> </html> 그런 다음 HTML 태그의 이름이나 ID를 통해 중첩 태그에 액세스하는 방법을 제공하여 기본적으로 div태그에 …


5
정규 표현식을 사용하지 않는 경우 HTML 구문 분석은 어떻게 작동합니까?
나는 매일 HTML 문자열에서 무언가를 구문 분석하거나 추출하는 방법을 묻는 질문을 봅니다. 첫 번째 답변 / 주석은 항상 "분노를 느끼지 않도록 HTML 구문 분석에 RegEx를 사용하지 마십시오!"입니다. (마지막 부분은 때때로 생략됩니다). 이것은 나에게 다소 혼란 스럽습니다. 일반적으로 복잡한 문자열을 구문 분석하는 가장 좋은 방법은 정규식을 사용하는 것이라고 항상 생각했습니다. 그렇다면 …

5
Node.js로 HTML 페이지를 구문 분석하는 방법
많은 양의 HTML 페이지를 구문 분석 (서버 측)해야합니다. 우리 모두는 regexp가 여기에 갈 길이 아님에 동의합니다. 자바 스크립트가 HTML 페이지를 파싱하는 기본 방법 인 것 같지만 그 가정은 자바 스크립트가 브라우저 내부에 가지고있는 모든 DOM 기능을 가진 서버 측 코드에 의존합니다. Node.js에 이러한 기능이 내장되어 있습니까? 서버 측에서 HTML을 구문 …

8
grep, regex 또는 perl을 사용하여 패턴에 따라 문자열을 추출하는 방법
다음과 같은 파일이 있습니다. <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> 나는 따라 따옴표 안에 아무것도 추출해야 name=즉,, content_analyzer, content_analyzer2와 content_analyzer_items. Linux 상자에서이 작업을 수행하고 있으므로 sed, perl, grep 또는 bash를 사용하는 솔루션이 좋습니다.

8
JavaScript 또는 jQuery에서 HTML을 정규화하는 방법은 무엇입니까?
태그는 여러 속성을 가질 수 있습니다. 코드에서 속성이 나타나는 순서는 중요하지 않습니다. 예를 들면 : <a href="#" title="#"> <a title="#" href="#"> Javascript에서 HTML을 "정규화"하여 속성의 순서가 항상 동일하도록하려면 어떻게해야합니까? 항상 같은 순서라면 어떤 순서를 선택하든 상관 없습니다. 업데이트 : 나의 원래 목표는 약간의 차이가있는 2 개의 HTML 페이지를 (자바 스크립트에서) …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.