Python爬蟲小記(三)


由於電腦太卡,換了個系統,然后下載的python2.7版本。
讀取本地html頁面中的內容:
Demo01:

# coding=utf-8
from bs4 import BeautifulSoup
def getContent (url):
htmlfile=open(url,'r')
htmlpage=htmlfile.read()
soup=BeautifulSoup(htmlpage,"html.parser")
cctag = soup.find_all('h1', attrs={'class': 'test'})
for i in cctag:
print i.get_text()
return None

Demo02:

# coding=utf-8
import Demo01
url = r'./test.html'
Demo01.getContent(url)

test.html:

<html>
<title>
test
</title>
<body>
<h1 class="test">
這是一個小測試
</h1>
</body>
</html>

運行結果: 這是一個小測試


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com