微博模擬登陸之驗證碼的解決方法


近兩周有很多在網絡爬蟲、nlp群320349384中有很多群友討論關於微博類爬蟲時出現驗證碼時的解決方法,解決思路很明顯,一是人工打碼,二是OCR智能識別來解決,前者較簡單,后者較難只有大公司才能搞定80%,所以我們一般暫采取人工打碼的方式。

   但人工打碼,並這里我強調的稍智些的人工打碼,而去看瀏覽器去監測然后再在瀏覽器中去打碼的過程,該實現過程太過啰嗦。本文介紹和在群320349384中共享的驗證驗解決方法,是自動發現驗證碼,並把驗證碼通過JAVA的GUI程序將驗證碼彈出讓人輸出即可,也可以多次輸入,直接輸入正確為止,大概的驗證碼打碼樣式,如下圖:

輸入相應的值后提交,系統會自動將驗證碼和用戶名、密碼等參數,一起post到微博平台的登陸接口中,從而得到最終正確的cookies,從而進行下一步的數據抓取。


該項目源碼已共享到網絡爬蟲、nlp群320349384中,群共享中的項目名稱

"SinaMicroBlogCookie-2014-05-04-解決人工輸入驗證碼.zip",歡迎加入,交流促進發展,分享成就未來。

 

 


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com