通過python獲取甲流分布數(shù)據(jù)
近期,多地學(xué)校出現(xiàn)因甲流導(dǎo)致的班級(jí)停課,兒科甲流患者就診量呈數(shù)倍增長(zhǎng)。此輪甲流為何如此嚴(yán)重?感染甲流之后會(huì)出現(xiàn)哪些癥狀
經(jīng)過專家的介紹甲流之所以這么嚴(yán)重有這些原因?qū)е碌摹R?、疫情完全放開后很多孩子不戴口罩了,預(yù)防流感的作用會(huì)下降。二是“免疫債”的償還,免疫債又稱免疫差距。指實(shí)施NPIs (戴口罩、保持手衛(wèi)生、保持社交距離等)后人群病原體免疫刺激缺乏,易感人群增加導(dǎo)致群體免疫水平較疫情前下降。孩子免疫系統(tǒng)的發(fā)育是要有適當(dāng)?shù)牟≡瓉?lái)進(jìn)行刺激的,疫情期間一直戴口罩,局部的呼吸道的免疫力是降低的,摘下口罩后會(huì)比原來(lái)更容易感染呼吸道疾病。
伴隨著甲流病人數(shù)猛增,群眾對(duì)于這一病癥重視度也在增加,不僅有關(guān)甲流的搜索指數(shù)在增加,并且因?yàn)榧琢鞯谋l(fā)重現(xiàn)了搶藥高潮。
疫情期間的時(shí)候分享了如何利用python爬蟲疫情數(shù)據(jù)的博客,今天我們同樣的操作來(lái)獲取下現(xiàn)在甲流感染的數(shù)據(jù)
爬取思路從以下幾個(gè)方面進(jìn)行分析,數(shù)據(jù)來(lái)源于:https://www.baidu.com/
1、分析網(wǎng)頁(yè)的網(wǎng)絡(luò)數(shù)據(jù),取得請(qǐng)求頭,并用python的requests包進(jìn)行解析和讀取。
2、分析解析出的包,進(jìn)行提取和操作
3、將數(shù)據(jù)提出并存到數(shù)據(jù)庫(kù)
涉及到的知識(shí)點(diǎn):python的爬取,目標(biāo)網(wǎng)站的反爬
思路差不多就是這些,因?yàn)橛蟹磁溃栽谂廊∵^程中錯(cuò)了反爬措施,基本的就是解決方案就是User-Agent 用戶代理的添加和代理的使用,加上User-Agent,表明你是瀏覽器訪問即可。有時(shí)還會(huì)檢查是否帶Referer信息還會(huì)檢查你的Referer是否合法,一般再加上Referer。
User-Agent最好使用真實(shí)庫(kù),代理最好也是高效的,Referer的來(lái)源可以偽裝成百度搜索來(lái)的。
Mozilla/4.0 (compatible; MSIE 4.0; Windows Me; Trident/4.0; SV1; .NET CLR 1.0.3705; .NET CLR 3.0.04320; msn OptimizedIE8;ZHCN) Mozilla/4.0 (compatible; MSIE 4.0; Windows NT 5.1; Trident/4.0; Maxthon; .NET CLR 3.0.04320; msn OptimizedIE8;ZHCN) Mozilla/4.0 (compatible; MSIE 6.0; Windows CE; PPC; 240x320) Opera 8.65 [zh-cn] Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QIHU 360EE) ; InfoPath.2; .NET CLR 2.0.50727) Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Foxy/2; .NET CLR 2.0.50727; SE 2.x) Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET CLR 2.0.50727; 360SE) 需要其他版本的UA庫(kù),可以找億牛云。 爬蟲如何添加UA: class ProxyMiddleware(object): def process_request(self, request, spider): # 代理服務(wù)器(產(chǎn)品官網(wǎng) www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理驗(yàn)證信息 proxyUser = "username" proxyPass = "password" request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort) # 添加驗(yàn)證頭 encoded_user_pass = base64ify(proxyUser + ":" + proxyPass) request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass # 設(shè)置IP切換頭(根據(jù)需求) tunnel = random.randint(1,10000) request.headers['Proxy-Tunnel'] = str(tunnel) headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36', 'Referer':'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'} response = requests.get(url=url, headers=headers)
cookie的獲取
import requests class Crawler(): def getCookie(self): response = requests.get(self.url) cookie_value = '' for key,value in response.cookies.items(): cookie_value += key + '=' + value + ';' self.headers['Cookie'] = cookie_value
到此這篇關(guān)于通過python獲取甲流分布數(shù)據(jù)的文章就介紹到這了,更多相關(guān)python獲取甲流分布數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python標(biāo)準(zhǔn)庫(kù)turtle海龜繪圖實(shí)現(xiàn)簡(jiǎn)單奧運(yùn)五環(huán)
這篇文章主要為大家介紹了python使用turtle實(shí)現(xiàn)最簡(jiǎn)單簡(jiǎn)單奧運(yùn)五環(huán)繪圖,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05自動(dòng)化測(cè)試Pytest單元測(cè)試框架的基本介紹
這篇文章主要介紹了Pytest單元測(cè)試框架的基本介紹,包含了Pytest的概念,Pytest特點(diǎn),其安裝流程步驟以及相關(guān)配置流程,有需要的朋友可以參考下2021-08-08Django框架請(qǐng)求生命周期實(shí)現(xiàn)原理
這篇文章主要介紹了Django框架請(qǐng)求生命周期實(shí)現(xiàn)原理,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-11-11python中關(guān)于range()函數(shù)反向遍歷的幾種表達(dá)
這篇文章主要介紹了python中關(guān)于range()函數(shù)反向遍歷的幾種表達(dá),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-05-05Python編程異步爬蟲之a(chǎn)iohttp模塊的基本用法
aiohttp?模塊是一個(gè)基于?asyncio?的?HTTP?客戶端和服務(wù)器框架,可以用于異步處理?HTTP?請(qǐng)求和響應(yīng),這篇文章給大家介紹Python編程異步爬蟲之a(chǎn)iohttp模塊的基本用法,感興趣的朋友一起看看吧2024-03-03關(guān)于Python字符編碼與二進(jìn)制不得不說(shuō)的一些事
這篇文章主要給大家介紹了關(guān)于Python字符編碼與二進(jìn)制不得不說(shuō)的一些事,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-10-10詳解Python中 sys.argv[]的用法簡(jiǎn)明解釋
本篇文章主要介紹了詳解Python中 sys.argv[]的用法簡(jiǎn)明解釋,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來(lái)看看吧2017-12-12Python的collections模塊中的OrderedDict有序字典
字典是無(wú)序的,但是collections的OrderedDict類為我們提供了一個(gè)有序的字典結(jié)構(gòu),名副其實(shí)的Ordered+Dict,下面通過兩個(gè)例子來(lái)簡(jiǎn)單了解下Python的collections模塊中的OrderedDict有序字典:2016-07-07