腳本之家服務器常用軟件

快捷導航

軟件下載

android MAC 驅(qū)動下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

利用Python實現(xiàn)崗位的分析報告

更新時間：2023年03月22日 08:38:11 作者：徐浪老師

這篇文章主要為大家詳細介紹了如何利用Python實現(xiàn)崗位的分析報告，文中的示例代碼講解詳細，感興趣的小伙伴可以跟隨小編一起學習一下

前言

前兩篇我們分別爬取了糗事百科和妹子圖網(wǎng)站，學習了 Requests, Beautiful Soup 的基本使用。不過前兩篇都是從靜態(tài) HTML 頁面中來篩選出我們需要的信息。這一篇我們來學習下如何來獲取 Ajax 請求返回的結果。

本篇以拉勾網(wǎng)為例來說明一下如何獲取 Ajax 請求內(nèi)容

一、本文目標

獲取 Ajax 請求,解析 JSON 中所需字段

數(shù)據(jù)保存到 Excel 中

數(shù)據(jù)保存到 MySQL, 方便分析

二、分析結果

1.引入庫

五個城市 Python 崗位平均薪資水平

Python 崗位要求學歷分布

Python 行業(yè)領域分布

Python 公司規(guī)模分布：

2.頁面結構

我們輸入查詢條件以 Python 為例，其他條件默認不選，點擊查詢，就能看到所有 Python 的崗位了，然后我們打開控制臺，點擊網(wǎng)絡標簽可以看到如下請求：

從響應結果來看，這個請求正是我們需要的內(nèi)容。后面我們直接請求這個地址就好了。從圖中可以看出 result 下面就是各個崗位信息。

到這里我們知道了從哪里請求數(shù)據(jù)，從哪里獲取結果。但是 result 列表中只有第一頁 15 條數(shù)據(jù)，其他頁面數(shù)據(jù)怎么獲取呢？

3.請求參數(shù)

我們點擊參數(shù)選項卡，如下：

發(fā)現(xiàn)提交了三個表單數(shù)據(jù)，很明顯看出來 kd 就是我們搜索的關鍵詞，pn 就是當前頁碼。first 默認就行了，不用管它。剩下的事情就是構造請求，來下載 30 個頁面的數(shù)據(jù)了。

4.構造請求解析數(shù)據(jù)

構造請求很簡單，我們還是用 requests 庫來搞定。首先我們構造出表單數(shù)據(jù)

data = {'first': 'true', 'pn': page, 'kd': lang_name}

之后用 requests 來請求url地址，解析得到的 JSON 數(shù)據(jù)就算大功告成了。由于拉勾對爬蟲限制比較嚴格，我們需要把瀏覽器中 headers 字段全部加上，而且把爬蟲間隔調(diào)大一點，我后面設置的為 10-20s，然后就能正常獲取數(shù)據(jù)了。

import requests

def get_json(url, page, lang_name):
   headers = {
       'Host': 'www.lagou.com',
       'Connection': 'keep-alive',
       'Content-Length': '23',
       'Origin': 'https://www.lagou.com',
       'X-Anit-Forge-Code': '0',
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
       'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
       'Accept': 'application/json, text/javascript, */*; q=0.01',
       'X-Requested-With': 'XMLHttpRequest',
       'X-Anit-Forge-Token': 'None',
       'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=',
       'Accept-Encoding': 'gzip, deflate, br',
       'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
   }
   data = {'first': 'false', 'pn': page, 'kd': lang_name}
   json = requests.post(url, data, headers=headers).json()
   list_con = json['content']['positionResult']['result']
   info_list = []
   for i in list_con:
       info = []
       info.append(i.get('companyShortName', '無'))
       info.append(i.get('companyFullName', '無'))
       info.append(i.get('industryField', '無'))
       info.append(i.get('companySize', '無'))
       info.append(i.get('salary', '無'))
       info.append(i.get('city', '無'))
       info.append(i.get('education', '無'))
       info_list.append(info)
   return info_list

4.獲取所有數(shù)據(jù)

了解了如何解析數(shù)據(jù)，剩下的就是連續(xù)請求所有頁面了，我們構造一個函數(shù)來請求所有 30 頁的數(shù)據(jù)。

def main():
   lang_name = 'python'
   wb = Workbook()
   conn = get_conn()
   for i in ['北京', '上海', '廣州', '深圳', '杭州']:
       page = 1
       ws1 = wb.active
       ws1.title = lang_name
       url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i)
       while page < 31:
           info = get_json(url, page, lang_name)
           page += 1
           import time
           a = random.randint(10, 20)
           time.sleep(a)
           for row in info:
               insert(conn, tuple(row))
               ws1.append(row)
   conn.close()
   wb.save('{}職位信息.xlsx'.format(lang_name))

if __name__ == '__main__':
   main()

總結

如果對數(shù)據(jù)庫不熟悉的同學，直接注釋掉 main 函數(shù)中的三行數(shù)據(jù)庫代碼就行了，我在注釋中有說明是哪三行。

到此這篇關于利用Python實現(xiàn)崗位的分析報告的文章就介紹到這了,更多相關Python崗位分析內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

利用Python實現(xiàn)崗位的分析報告

目錄

前言

一、本文目標

二、分析結果

1.引入庫

2.頁面結構

3.請求參數(shù)

4.構造請求解析數(shù)據(jù)

4.獲取所有數(shù)據(jù)

總結

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

利用Python實現(xiàn)崗位的分析報告

目錄

前言

一、本文目標

二、分析結果

1.引入庫

2.頁面結構

3.請求參數(shù)

4.構造請求 解析數(shù)據(jù)

4.獲取所有數(shù)據(jù)

總結

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、本文目標

4.構造請求解析數(shù)據(jù)