欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

利用Python實現(xiàn)崗位的分析報告

 更新時間:2023年03月22日 08:38:11   作者:徐浪老師  
這篇文章主要為大家詳細介紹了如何利用Python實現(xiàn)崗位的分析報告,文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起學習一下

前言

前兩篇我們分別爬取了糗事百科和妹子圖網(wǎng)站,學習了 Requests, Beautiful Soup 的基本使用。不過前兩篇都是從靜態(tài) HTML 頁面中來篩選出我們需要的信息。這一篇我們來學習下如何來獲取 Ajax 請求返回的結果。

本篇以拉勾網(wǎng)為例來說明一下如何獲取 Ajax 請求內(nèi)容

一、本文目標

獲取 Ajax 請求,解析 JSON 中所需字段

數(shù)據(jù)保存到 Excel 中

數(shù)據(jù)保存到 MySQL, 方便分析

二、分析結果

1.引入庫

五個城市 Python 崗位平均薪資水平

Python 崗位要求學歷分布

Python 行業(yè)領域分布

Python 公司規(guī)模分布:

2.頁面結構

我們輸入查詢條件以 Python 為例,其他條件默認不選,點擊查詢,就能看到所有 Python 的崗位了,然后我們打開控制臺,點擊網(wǎng)絡標簽可以看到如下請求:

從響應結果來看,這個請求正是我們需要的內(nèi)容。后面我們直接請求這個地址就好了。從圖中可以看出 result 下面就是各個崗位信息。

到這里我們知道了從哪里請求數(shù)據(jù),從哪里獲取結果。但是 result 列表中只有第一頁 15 條數(shù)據(jù),其他頁面數(shù)據(jù)怎么獲取呢?

3.請求參數(shù)

我們點擊參數(shù)選項卡,如下:

發(fā)現(xiàn)提交了三個表單數(shù)據(jù),很明顯看出來 kd 就是我們搜索的關鍵詞,pn 就是當前頁碼。first 默認就行了,不用管它。剩下的事情就是構造請求,來下載 30 個頁面的數(shù)據(jù)了。

4.構造請求 解析數(shù)據(jù)

構造請求很簡單,我們還是用 requests 庫來搞定。首先我們構造出表單數(shù)據(jù)

data = {'first': 'true', 'pn': page, 'kd': lang_name}

之后用 requests 來請求url地址,解析得到的 JSON 數(shù)據(jù)就算大功告成了。由于拉勾對爬蟲限制比較嚴格,我們需要把瀏覽器中 headers 字段全部加上,而且把爬蟲間隔調大一點,我后面設置的為 10-20s,然后就能正常獲取數(shù)據(jù)了。

import requests

def get_json(url, page, lang_name):
   headers = {
       'Host': 'www.lagou.com',
       'Connection': 'keep-alive',
       'Content-Length': '23',
       'Origin': 'https://www.lagou.com',
       'X-Anit-Forge-Code': '0',
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
       'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
       'Accept': 'application/json, text/javascript, */*; q=0.01',
       'X-Requested-With': 'XMLHttpRequest',
       'X-Anit-Forge-Token': 'None',
       'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=',
       'Accept-Encoding': 'gzip, deflate, br',
       'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
   }
   data = {'first': 'false', 'pn': page, 'kd': lang_name}
   json = requests.post(url, data, headers=headers).json()
   list_con = json['content']['positionResult']['result']
   info_list = []
   for i in list_con:
       info = []
       info.append(i.get('companyShortName', '無'))
       info.append(i.get('companyFullName', '無'))
       info.append(i.get('industryField', '無'))
       info.append(i.get('companySize', '無'))
       info.append(i.get('salary', '無'))
       info.append(i.get('city', '無'))
       info.append(i.get('education', '無'))
       info_list.append(info)
   return info_list

4.獲取所有數(shù)據(jù)

了解了如何解析數(shù)據(jù),剩下的就是連續(xù)請求所有頁面了,我們構造一個函數(shù)來請求所有 30 頁的數(shù)據(jù)。

def main():
   lang_name = 'python'
   wb = Workbook()
   conn = get_conn()
   for i in ['北京', '上海', '廣州', '深圳', '杭州']:
       page = 1
       ws1 = wb.active
       ws1.title = lang_name
       url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i)
       while page < 31:
           info = get_json(url, page, lang_name)
           page += 1
           import time
           a = random.randint(10, 20)
           time.sleep(a)
           for row in info:
               insert(conn, tuple(row))
               ws1.append(row)
   conn.close()
   wb.save('{}職位信息.xlsx'.format(lang_name))

if __name__ == '__main__':
   main()

總結

如果對數(shù)據(jù)庫不熟悉的同學,直接注釋掉 main 函數(shù)中的三行數(shù)據(jù)庫代碼就行了,我在注釋中有說明是哪三行。

到此這篇關于利用Python實現(xiàn)崗位的分析報告的文章就介紹到這了,更多相關Python崗位分析內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • python基于watchdog庫全自動化監(jiān)控目錄文件

    python基于watchdog庫全自動化監(jiān)控目錄文件

    這篇文章主要介紹了python基于watchdog庫全自動化監(jiān)控目錄文件,幫助大家更好的理解和學習使用python,感興趣的朋友可以了解下
    2021-03-03
  • 使用python對視頻文件分辨率進行分組的實例代碼

    使用python對視頻文件分辨率進行分組的實例代碼

    通過對視頻的分辨路進行分類可以在需要的時候快速找到你想要的視頻分辨率。當然人工去分類是一種比較費時費力的工作,通過軟件也好,程序也罷都是為了可以提高我們的工作效率。下面通過代碼給大家分享使用python對視頻文件分辨率進行分組的方法,一起看看吧
    2021-10-10
  • Python代碼實現(xiàn)刪除一個list里面重復元素的方法

    Python代碼實現(xiàn)刪除一個list里面重復元素的方法

    今天小編就為大家分享一篇關于Python代碼實現(xiàn)刪除一個list里面重復元素的方法,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-04-04
  • pycharm三個有引號不能自動生成函數(shù)注釋的問題

    pycharm三個有引號不能自動生成函數(shù)注釋的問題

    這篇文章主要介紹了解決pycharm三個有引號不能自動生成函數(shù)注釋的問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-02-02
  • 推薦Python小白理想的IDE編輯器thonny

    推薦Python小白理想的IDE編輯器thonny

    這篇文章主要為大家介紹了推薦一款Python編輯器thonny,非常適合Python使用,具體原因文中給出詳細說明,希望能夠有所幫助,祝大家多多進步
    2021-10-10
  • python日志模塊logging案例詳解

    python日志模塊logging案例詳解

    日志模塊主要用于輸出運行日志,可以設置輸出日志的等級、日志保存路徑、日志文件回滾等,這篇文章主要介紹了python日志模塊logging,需要的朋友可以參考下
    2024-01-01
  • 編寫自定義的Django模板加載器的簡單示例

    編寫自定義的Django模板加載器的簡單示例

    這篇文章主要介紹了編寫自定義的Django模板加載器的簡單示例,Django是各色人氣Python框架中最為著名的一個,需要的朋友可以參考下
    2015-07-07
  • PyTorch環(huán)境配置及安裝過程

    PyTorch環(huán)境配置及安裝過程

    這篇文章主要介紹了PyTorch環(huán)境配置及安裝,本文通過圖文實例代碼相結合給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2023-04-04
  • Python os模塊學習筆記

    Python os模塊學習筆記

    這篇文章主要介紹了Python os模塊學習筆記,本文總結了OS模塊的常用方法、實用方法,并給出了兩個使用實例,需要的朋友可以參考下
    2015-06-06
  • 你可能不知道的Python 技巧小結

    你可能不知道的Python 技巧小結

    有許許多多文章寫了 Python 中的許多很酷的特性,例如變量解包、偏函數(shù)、枚舉可迭代對象,但是關于 Python 還有很多要討論的話題,因此在本文中,我將嘗試展示一些我知道的和在使用的,但很少在其它文章提到過的特性。那就開始吧
    2020-01-01

最新評論