하나의 실수 나는 사람들이 만드는 참조 이상 과 다시 정규식으로 XML 또는 HTML을 구문 분석을 시도하고 있습니다. XML과 HTML을 파싱하는 것이 어려운 몇 가지 이유는 다음과 같습니다.
사람들은 파일을 일련의 행으로 취급하려고하지만 유효합니다.
<tag
attr="5"
/>
사람들은 <또는 <tag를 태그의 시작으로 취급하기를 원하지만 다음과 같은 것들이 야생에 존재합니다.
<img src="imgtag.gif" alt="<img>" />
사람들은 종종 시작 태그와 끝 태그를 일치 시키려고하지만 XML과 HTML을 사용하면 태그에 자신을 포함시킬 수 있습니다 (전통적인 정규 표현식은 전혀 처리 할 수 없음).
<span id="outer"><span id="inner">foo</span></span>
사람들은 종종 문서의 내용 (예 : 유명한 "주어진 페이지에서 모든 전화 번호 찾기"문제)과 일치하기를 원하지만 데이터가 표시 될 때 데이터가 표시 될 수 있습니다 (보았을 때 정상으로 보이는 경우에도).
<span class="phonenum">(<span class="area code">703</span>)
<span class="prefix">348</span>-<span class="linenum">3020</span></span>
주석에 형식이 잘못되었거나 불완전한 태그가 포함될 수 있습니다.
<a href="foo">foo</a>
<!-- FIXME:
<a href="
-->
<a href="bar">bar</a>
다른 어떤 문제를 알고 있습니까?