用Python寫網絡爬蟲——學習筆記(1)


【網站背景調研】

網站自身的robots.txt/Sitemap  Google/WHOIS

1.檢查robots.txt

爬蟲限制、與網站結構相關的顯示

如何查看robots.txt?在網站后打/robots.txt即可


2.檢查Sitemap


估算網站大小

        大小衡量?目標網站的URL的個數
1) 檢查Google爬蟲的結果
○1Google很可能已經爬取過我們感興趣的網站,可以通過Google所示的site關鍵詞過濾域名結果,從而獲得該信息。如site:example.webscraping.com
***在域名后添加URL路徑,縮小查詢范圍,可以對結果過濾,如:site:example.webscraping.com/view

○2Google高級搜索www.google.com/advanced_search


識別網站所用技術

       構建網站所使用的技術類型對如何爬取有所影響
**有用的工具:builtwith模塊 

安裝方法:pip install bulitwith

調用:

import builtwith
builtwith.parse('網址')


查看返回結果

JavaScript——很有可能嵌入在HTML中,靜態,易抓取
AngularJS——動態網頁
ASP.NET——會話管理、表單


尋找網站的所有者

**使用WHOIS協議查詢域名的注冊者。
Python有個針對WHOIS協議的封裝庫,pip install python-whois

import whois
print whois.whois(‘網址’)




注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com