小白學爬蟲--2


之前學了一點bs4庫的使用和html的基礎知識,今天沒有系統性的學習一點爬蟲知識,只是在努力爬取某一個網頁。

在這個過程中,接觸到了selenium包的Webdriver。今天用這個東西主要是為了獲取網頁的html,但是在爬取含有

frame框架的網頁上,簡單的webdriver不起作用。

但是對於一般的html爬取還是很有效的


至此,爬蟲的第一步算是結束----get要爬取網頁的html

接下來是可以用bs4的BeautifulSoup進行處理,但是有時候我們需要先提取特定的標簽元素,

因此可以用webdriver中各種查找元素的方法進行處理。


這部分明天學習。









注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com