利用Python實(shí)現(xiàn)崗位的分析報(bào)告
前言
前兩篇我們分別爬取了糗事百科和妹子圖網(wǎng)站,學(xué)習(xí)了 Requests, Beautiful Soup 的基本使用。不過(guò)前兩篇都是從靜態(tài) HTML 頁(yè)面中來(lái)篩選出我們需要的信息。這一篇我們來(lái)學(xué)習(xí)下如何來(lái)獲取 Ajax 請(qǐng)求返回的結(jié)果。
本篇以拉勾網(wǎng)為例來(lái)說(shuō)明一下如何獲取 Ajax 請(qǐng)求內(nèi)容
一、本文目標(biāo)
獲取 Ajax 請(qǐng)求,解析 JSON 中所需字段
數(shù)據(jù)保存到 Excel 中
數(shù)據(jù)保存到 MySQL, 方便分析
二、分析結(jié)果
1.引入庫(kù)
五個(gè)城市 Python 崗位平均薪資水平
Python 崗位要求學(xué)歷分布
Python 行業(yè)領(lǐng)域分布
Python 公司規(guī)模分布:
2.頁(yè)面結(jié)構(gòu)
我們輸入查詢(xún)條件以 Python 為例,其他條件默認(rèn)不選,點(diǎn)擊查詢(xún),就能看到所有 Python 的崗位了,然后我們打開(kāi)控制臺(tái),點(diǎn)擊網(wǎng)絡(luò)標(biāo)簽可以看到如下請(qǐng)求:
從響應(yīng)結(jié)果來(lái)看,這個(gè)請(qǐng)求正是我們需要的內(nèi)容。后面我們直接請(qǐng)求這個(gè)地址就好了。從圖中可以看出 result 下面就是各個(gè)崗位信息。
到這里我們知道了從哪里請(qǐng)求數(shù)據(jù),從哪里獲取結(jié)果。但是 result 列表中只有第一頁(yè) 15 條數(shù)據(jù),其他頁(yè)面數(shù)據(jù)怎么獲取呢?
3.請(qǐng)求參數(shù)
我們點(diǎn)擊參數(shù)選項(xiàng)卡,如下:
發(fā)現(xiàn)提交了三個(gè)表單數(shù)據(jù),很明顯看出來(lái) kd 就是我們搜索的關(guān)鍵詞,pn 就是當(dāng)前頁(yè)碼。first 默認(rèn)就行了,不用管它。剩下的事情就是構(gòu)造請(qǐng)求,來(lái)下載 30 個(gè)頁(yè)面的數(shù)據(jù)了。
4.構(gòu)造請(qǐng)求 解析數(shù)據(jù)
構(gòu)造請(qǐng)求很簡(jiǎn)單,我們還是用 requests 庫(kù)來(lái)搞定。首先我們構(gòu)造出表單數(shù)據(jù)
data = {'first': 'true', 'pn': page, 'kd': lang_name}
之后用 requests 來(lái)請(qǐng)求url地址,解析得到的 JSON 數(shù)據(jù)就算大功告成了。由于拉勾對(duì)爬蟲(chóng)限制比較嚴(yán)格,我們需要把瀏覽器中 headers 字段全部加上,而且把爬蟲(chóng)間隔調(diào)大一點(diǎn),我后面設(shè)置的為 10-20s,然后就能正常獲取數(shù)據(jù)了。
import requests def get_json(url, page, lang_name): headers = { 'Host': 'www.lagou.com', 'Connection': 'keep-alive', 'Content-Length': '23', 'Origin': 'https://www.lagou.com', 'X-Anit-Forge-Code': '0', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0', 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 'Accept': 'application/json, text/javascript, */*; q=0.01', 'X-Requested-With': 'XMLHttpRequest', 'X-Anit-Forge-Token': 'None', 'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7' } data = {'first': 'false', 'pn': page, 'kd': lang_name} json = requests.post(url, data, headers=headers).json() list_con = json['content']['positionResult']['result'] info_list = [] for i in list_con: info = [] info.append(i.get('companyShortName', '無(wú)')) info.append(i.get('companyFullName', '無(wú)')) info.append(i.get('industryField', '無(wú)')) info.append(i.get('companySize', '無(wú)')) info.append(i.get('salary', '無(wú)')) info.append(i.get('city', '無(wú)')) info.append(i.get('education', '無(wú)')) info_list.append(info) return info_list
4.獲取所有數(shù)據(jù)
了解了如何解析數(shù)據(jù),剩下的就是連續(xù)請(qǐng)求所有頁(yè)面了,我們構(gòu)造一個(gè)函數(shù)來(lái)請(qǐng)求所有 30 頁(yè)的數(shù)據(jù)。
def main(): lang_name = 'python' wb = Workbook() conn = get_conn() for i in ['北京', '上海', '廣州', '深圳', '杭州']: page = 1 ws1 = wb.active ws1.title = lang_name url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i) while page < 31: info = get_json(url, page, lang_name) page += 1 import time a = random.randint(10, 20) time.sleep(a) for row in info: insert(conn, tuple(row)) ws1.append(row) conn.close() wb.save('{}職位信息.xlsx'.format(lang_name)) if __name__ == '__main__': main()
總結(jié)
如果對(duì)數(shù)據(jù)庫(kù)不熟悉的同學(xué),直接注釋掉 main 函數(shù)中的三行數(shù)據(jù)庫(kù)代碼就行了,我在注釋中有說(shuō)明是哪三行。
到此這篇關(guān)于利用Python實(shí)現(xiàn)崗位的分析報(bào)告的文章就介紹到這了,更多相關(guān)Python崗位分析內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python基于watchdog庫(kù)全自動(dòng)化監(jiān)控目錄文件
這篇文章主要介紹了python基于watchdog庫(kù)全自動(dòng)化監(jiān)控目錄文件,幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下2021-03-03使用python對(duì)視頻文件分辨率進(jìn)行分組的實(shí)例代碼
通過(guò)對(duì)視頻的分辨路進(jìn)行分類(lèi)可以在需要的時(shí)候快速找到你想要的視頻分辨率。當(dāng)然人工去分類(lèi)是一種比較費(fèi)時(shí)費(fèi)力的工作,通過(guò)軟件也好,程序也罷都是為了可以提高我們的工作效率。下面通過(guò)代碼給大家分享使用python對(duì)視頻文件分辨率進(jìn)行分組的方法,一起看看吧2021-10-10Python代碼實(shí)現(xiàn)刪除一個(gè)list里面重復(fù)元素的方法
今天小編就為大家分享一篇關(guān)于Python代碼實(shí)現(xiàn)刪除一個(gè)list里面重復(fù)元素的方法,小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧2019-04-04pycharm三個(gè)有引號(hào)不能自動(dòng)生成函數(shù)注釋的問(wèn)題
這篇文章主要介紹了解決pycharm三個(gè)有引號(hào)不能自動(dòng)生成函數(shù)注釋的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-02-02編寫(xiě)自定義的Django模板加載器的簡(jiǎn)單示例
這篇文章主要介紹了編寫(xiě)自定義的Django模板加載器的簡(jiǎn)單示例,Django是各色人氣Python框架中最為著名的一個(gè),需要的朋友可以參考下2015-07-07