node.js爬蟲爬取拉勾網(wǎng)職位信息
簡介
用node.js寫了一個簡單的小爬蟲,用來爬取拉勾網(wǎng)上的招聘信息,共爬取了北京、上海、廣州、深圳、杭州、西安、成都7個城市的數(shù)據(jù),分別以前端、PHP、java、c++、python、Android、ios作為關鍵詞進行爬取,爬到的數(shù)據(jù)以json格式儲存到本地,為了方便觀察,我將數(shù)據(jù)整理了一下供大家參考
數(shù)據(jù)結果
上述數(shù)據(jù)為3月13日22時爬取的數(shù)據(jù),可大致反映各個城市對不同語言的需求量。
爬取過程展示
控制并發(fā)進行爬取
爬取到的數(shù)據(jù)文件
json數(shù)據(jù)文件
爬蟲程序
實現(xiàn)思路
請求拉鉤網(wǎng)的 “https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=城市&kd=關鍵詞&pn=頁數(shù)”可以返回一個json格式的數(shù)據(jù),該數(shù)據(jù)包含所要請求職位的信息,省去了使用chreio解析的麻煩,所以直接用superagent來進行請求上述地址,并將數(shù)據(jù)儲存在本地即可,其中參數(shù)city是為城市,kd為所要搜索的關鍵詞,pn為要請求的頁數(shù),當中使用到了async來控制異步流程,使得并發(fā)數(shù)不超過3,防止被封ip。
代碼地址及使用
github:https://github.com/zsqosos/positionAnalysis
代碼請在github上查看,使用該程序需要安裝node環(huán)境,如果覺得還不錯的話煩請給個star,歡迎大家修改使用該程序。
以上就是本文的全部內容,希望本文的內容對大家的學習或者工作能帶來一定的幫助,同時也希望多多支持腳本之家!
相關文章
Nodejs下用submit提交表單提示cannot post錯誤的解決方法
這篇文章主要介紹了Nodejs下用submit提交表單提示cannot post錯誤的解決方法,非常不錯,具有參考借鑒價值,感興趣的朋友一起看看吧2016-11-11node的process以及child_process模塊學習筆記
這篇文章主要介紹了node的process以及child_process模塊學習筆記,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-03-03nodejs+express實現(xiàn)文件上傳下載管理網(wǎng)站
這篇文章主要為大家詳細介紹了nodejs+express實現(xiàn)文件上傳下載管理的網(wǎng)站,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2017-03-03