파일에서 URL 링크 추출


1

다음 코드는 정규식을 사용하여 urlsort 파일로 파일 (urlfile에 약 1000 개의 링크가 포함되어 있음)에서 /support/security/*.html 링크를 추출하는 것입니다.

#!/usr/bin/env python
import re,sys

fileHandle = open('urlfile', 'r')
f1 = open('urlsort', 'w')
for line in fileHandle.readlines():

    links = re.findall(r"(\/support\/security\/*.html.*?)", line)
    for link in links:
        sys.stdout = f1
        print ('%s' % (link[0]))
        sys.stdout = sys.__stdout__


 f1.close()
 fileHandle.close()

이것은 stackoverflow.com에 있어야합니다.
Ramchandra Apte

답변:


1

정규 표현식에는 두 가지 실수가 있습니다 .. 첫 번째 누락 *?마지막 근처에 추가 가 없습니다 .

다음은 일부 urlsort파이썬 관용구 를 사용 하여 패턴과 일치하는 URL을 작성하는 코드입니다 .

#!/usr/bin/env python

import re

with open('urlfile', 'r') as urls_in:
    with open('urlsort', 'w') as urls_out:
        for line in urls_in:
            links = re.findall(r"(\/support\/security\/bulletins\/.*.html)", line)
            if links:
                urls_out.write("%s\n" % links[0])
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.