Python爬蟲 scrapy框架爬取某招聘網(wǎng)存入mongodb解析
更新時間:2019年07月31日 10:03:59 作者:Tanglaoer
這篇文章主要介紹了Python爬蟲 scrapy框架爬取某招聘網(wǎng)存入mongodb解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
創(chuàng)建項目
scrapy startproject zhaoping
創(chuàng)建爬蟲
cd zhaoping scrapy genspider hr zhaopingwang.com
目錄結構
items.py
title = scrapy.Field() position = scrapy.Field() publish_date = scrapy.Field()
pipelines.py
from pymongo import MongoClient mongoclient = MongoClient(host='192.168.226.150',port=27017) collection = mongoclient['zhaoping']['hr'] class TencentPipeline(object): def process_item(self, item, spider): print(item) # 需要轉換為 dict collection.insert(dict(item)) return item
spiders/hr.py
def parse(self, response): # 不要第一個 和最后一個 tr_list = response.xpath("http://table[@class='tablelist']/tr")[1:-1] for tr in tr_list: item = TencentItem() # xpath 從1 開始數(shù)起 item["title"] = tr.xpath("./td[1]/a/text()").extract_first() item["position"] = tr.xpath("./td[2]/text()").extract_first() item["publish_date"] = tr.xpath("./td[5]/text()").extract_first() yield item next_url = response.xpath("http://a[@id='next']/@href").extract_first() # 構造url if next_url != "javascript:;": print(next_url) next_url = "https://hr.tencent.com/" + next_url yield scrapy.Request(url=next_url,callback=self.parse,)
就是這么簡單,就獲取到數(shù)據(jù)
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
您可能感興趣的文章:
相關文章
Django 連接sql server數(shù)據(jù)庫的方法
這篇文章主要介紹了Django 連接sql server數(shù)據(jù)庫的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-06-06python調用系統(tǒng)ffmpeg實現(xiàn)視頻截圖、http發(fā)送
這篇文章主要為大家詳細介紹了python調用系統(tǒng)ffmpeg實現(xiàn)視頻截圖、http發(fā)送,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-03-03python學生信息管理系統(tǒng)實現(xiàn)代碼
這篇文章主要為大家詳細介紹了python學生信息管理系統(tǒng)的實現(xiàn)代碼,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-06-06