다음과 같은 문자열이 있습니다.
6Â 918Â 417Â 712
이 문자열을 자르는 명확한 방법은 (파이썬을 이해했듯이) 단순히 문자열이라는 변수에 있다고 말하는 것입니다 s
.
s.replace('Â ', '')
그게 트릭을해야합니다. 그러나 물론 '\xc2'
blabla.py 파일 의 비 ASCII 문자 가 인코딩되지 않았다고 불평합니다 .
다른 인코딩으로 전환하는 방법을 이해할 수 없었습니다.
여기에 코드가 있습니다. 실제로는 위와 동일하지만 지금은 컨텍스트에 있습니다. 파일은 메모장에 UTF-8로 저장되며 다음 헤더가 있습니다.
#!/usr/bin/python2.4
# -*- coding: utf-8 -*-
코드:
f = urllib.urlopen(url)
soup = BeautifulSoup(f)
s = soup.find('div', {'id':'main_count'})
#making a print 's' here goes well. it shows 6Â 918Â 417Â 712
s.replace('Â ','')
save_main_count(s)
더 이상 얻지 못합니다 s.replace
...
u