初學jupyter 與爬蟲


jupyter的快捷鍵:

    - 插入cell:a b   a是在上方添加,b是在下方添加,
    - 刪除cell:x,
    - 切換cell的模式:m y  m為切換到makedown格式,y為切換到code模式,
    - 執行cell:shift+enter,
    - tab:自動補全,
    - shift+tab:打開幫助文檔

 

什么是爬蟲:

  通過編寫程序,模擬瀏覽器上網,讓其去互聯網上獲取數據的過程

爬蟲的分類

  1.通用爬蟲:獲取一整張頁面數據

  2.聚焦爬蟲:根據指定的需求獲取頁面中指定的局部數據

  3.增量式爬蟲:用來監測網站數據更新的情況。爬取網站最新更新出來的數據。

反爬機制:網站可以采取先關的技術手段或者策略阻止爬蟲程序進行網站數據的爬取

反反爬策略:讓爬蟲程序通過破擊反爬機制獲取數據

 

robots協議:一篇寫着網站內容什么是允許爬的,什么是不允許爬的文檔     沒有什么強制的約束,防君子不防小人

http協議:client和Server進行數據交互的形式

https:安全的http協議

  • 對稱秘鑰加密:
  • 非對稱秘鑰加密:
  • 證書秘鑰加密:

 

使用到的頭信息:

  • User-Agent:請求載體的身份標識
  • Connection:'close'
  • content-type:

 

requests模塊

  • pip install requests
  • 作用:就是用來模擬瀏覽器上網的。
  • 特點:簡單,高效
  • old:urllib
  • requests模塊的使用流程:
    • 指定url
    • 發起請求
    • 獲取響應數據
    • 持久化存儲

 

  • 反爬機制:UA檢測
  • 反反爬策略:UA偽裝,偽造headers,偽裝為google瀏覽器headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
    }

 


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com