python爬蟲中g(shù)et和post方法介紹以及cookie作用
首先確定你要爬取的目標(biāo)網(wǎng)站的表單提交方式,可以通過開發(fā)者工具看到。這里推薦使用chrome。
這里我用163郵箱為例
打開工具后再Network中,在Name選中想要了解的網(wǎng)站,右側(cè)headers里的request method就是提交方式。status如果是200表示成功訪問下面的有頭信息,cookie是你登錄之后產(chǎn)生的存儲(chǔ)會(huì)話(session)信息的。第一次訪問該網(wǎng)頁需要提供用戶名和密碼,之后只需要在headers里提供cookie就可以登陸進(jìn)去。
引入requests庫,會(huì)提供get和post的方法。
代碼示例:
import requests import ssl user_agent="Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0" accept='text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' accept_language='zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3' upgrade='1' headers={ 'User-Agent':user_agent, 'Accept':accept, 'Accept-Language':accept_language, 'Cookie':'....'#這里填入你登陸后產(chǎn)生的cookie } r = requests.get("http://mail.163.com/js6/main.jsp?sid=OAwUtGgglzEJoANLHPggrsKKAhsyheAT&df=mail163_letter#module=welcome.WelcomeModule%7C%7B%7D",headers=headers,verify=False) fp = open("/temp/csdn.txt","w",encoding='utf-8') fp.write(str(r.content,'utf-8')) fp.close()
這里我引入了ssl庫,因?yàn)槲业谝淮卧L問的網(wǎng)頁證書過期。如果我們使用爬蟲進(jìn)入這樣的網(wǎng)站時(shí),會(huì)報(bào)錯(cuò):SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)
在requests的get和post方法中,有一個(gè)參數(shù)為verify,把他設(shè)為False后會(huì)禁掉證書的要求
相關(guān)文章
python版本的仿windows計(jì)劃任務(wù)工具
這篇文章主要介紹了python版本的仿windows計(jì)劃任務(wù)工具,計(jì)劃任務(wù)工具根據(jù)自己設(shè)定的具體時(shí)間,頻率,命令等屬性來規(guī)定所要執(zhí)行的計(jì)劃,當(dāng)然功能不是很全大家可以補(bǔ)充2018-04-04使用pandas模塊讀取csv文件和excel表格,并用matplotlib畫圖的方法
今天小編就為大家分享一篇使用pandas模塊讀取csv文件和excel表格,并用matplotlib畫圖的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-06-06使用python畫出邏輯斯蒂映射(logistic map)中的分叉圖案例
這篇文章主要介紹了使用python畫出邏輯斯蒂映射(logistic map)中的分叉圖案例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-12-12CentOS安裝pillow報(bào)錯(cuò)的解決方法
本文給大家分享的是作者在centos下為Python安裝pillow的時(shí)候報(bào)錯(cuò)的解決方法,希望對(duì)大家能夠有所幫助。2016-01-01