欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python異步存儲(chǔ)數(shù)據(jù)詳解

 更新時(shí)間:2019年03月19日 14:14:10   作者:我是李玉峰  
這篇文章主要為大家詳細(xì)介紹了python異步存儲(chǔ)數(shù)據(jù)的相關(guān)資料,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下

在Python中,數(shù)據(jù)存儲(chǔ)方式分為同步存儲(chǔ)和異步存儲(chǔ)。同步寫(xiě)入速度比較慢,而爬蟲(chóng)速度比較快,有可能導(dǎo)致數(shù)據(jù)保存不完整,一部分?jǐn)?shù)據(jù)沒(méi)有入庫(kù)。而異步可以將爬蟲(chóng)和寫(xiě)入數(shù)據(jù)庫(kù)操作分開(kāi)執(zhí)行,互不影響,所以寫(xiě)入速度比較快,能夠保證數(shù)據(jù)的完整性。

異步存儲(chǔ)數(shù)據(jù)庫(kù)大致看分為以下步驟:

1. 在settings中配置Mysql鏈接需要的參數(shù)(主機(jī)地址、用戶賬號(hào)、密碼、需要操作的表名、編碼格式等)
2. 自定義Pipeline,實(shí)現(xiàn)from_settings函數(shù)
3. from twisted.enterprise import adbapi 引入連接池模塊
4. from pymysql import cursors 引入游標(biāo)模塊
5. 在from_settings中,準(zhǔn)備鏈接數(shù)據(jù)庫(kù)參數(shù),創(chuàng)建db_pool連接池,創(chuàng)建返回當(dāng)前類(lèi)的對(duì)象,傳入db_pool
6. 實(shí)現(xiàn)初始化函數(shù),在初始化函數(shù)中,將db_pool賦值self的屬性
7. 實(shí)現(xiàn)process_item函數(shù)
    7.1  query = self.db_pool.runInteraction(執(zhí)行插入數(shù)據(jù)操作的函數(shù)對(duì)象,函數(shù)需要參數(shù)),并接受執(zhí)行返回結(jié)果
    7.2  query.addErrback(錯(cuò)誤回調(diào)函數(shù),函數(shù)需要參數(shù)),添加執(zhí)行sql失敗回調(diào)的函數(shù),在回調(diào)函數(shù)中對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)一步處理
8. 實(shí)現(xiàn)插入數(shù)據(jù)操作的函數(shù),準(zhǔn)備sql,執(zhí)行sql
9. 實(shí)現(xiàn)錯(cuò)誤回調(diào)函數(shù),在回調(diào)函數(shù)中對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)一步處理 

下面,我們以天堂圖片網(wǎng)為例,大致熟悉一下異步存儲(chǔ):

1. 在存儲(chǔ)之前,可以選擇手動(dòng)創(chuàng)建數(shù)據(jù)庫(kù)(表名、字段名、字段類(lèi)型等自己定義),也可以選擇代碼創(chuàng)建。

2. 存儲(chǔ)數(shù)據(jù)之前還得先拿到數(shù)據(jù)

import scrapy
from ..items import ImgItem
class IvskySpider(scrapy.Spider):
  name = 'ivsky'
  allowed_domains = ['ivsky.com']
  start_urls = ['http://www.ivsky.com/tupian/ziranfengguang/']
  def parse(self, response):
    imgs = response.xpath('//div[@class="il_img"]/a/img')
    for img in imgs:
      alt = img.xpath('@alt').extract_first('')
      src = img.xpath('@src').extract_first('')
      item = ImgItem()
      item['alt'] = alt
      item['src'] = src
 
      yield item

3. 自定義item,并把數(shù)據(jù)傳進(jìn)去

import scrapy
 
class IvskySpiderItem(scrapy.Item):
  # define the fields for your item here like:
  # name = scrapy.Field()
  pass
 
class ImgItem(scrapy.Item):
 
  alt = scrapy.Field()
  src = scrapy.Field()

4. 接下來(lái)就是settings中的配置,代碼如下(robots協(xié)議記得改為False):

MYSQL_HOST = '127.0.0.1'
MYSQL_USER = 'root'
MYSQL_PW = '123456'
MYSQL_DB = 'ivskydb'
MYSQL_CHARSET = 'utf8'

5. 再然后自定義pipeline,并把該pipeline在settings中配置(設(shè)置優(yōu)先級(jí)):

from twisted.enterprise import adbapi
from pymysql import cursors
 
class TwistedMysqlPipeline(object):
 
  # 在調(diào)用TwistedMysqlPipeline時(shí),第一個(gè)調(diào)用該函數(shù)
  @classmethod
  def from_settings(cls, settings):
 
    #準(zhǔn)備需要用到的鏈接mysql的參數(shù)
    db_prams = dict(
      host=settings['MYSQL_HOST'],
      user=settings['MYSQL_USER'],
      password=settings['MYSQL_PW'],
      db=settings['MYSQL_DB'],
      port=3306,
      use_unicode=True,
      charset=settings['MYSQL_CHARSET'],
      # 指定使用的游標(biāo)類(lèi)型
      cursorclass=cursors.DictCursor
    )
    # 創(chuàng)建連接池對(duì)象,需要傳入兩個(gè)參數(shù)
    # 1.使用操作mysql第三方包名
    # 2.連接數(shù)據(jù)庫(kù)需要的參數(shù)
    db_pool = adbapi.ConnectionPool('pymysql', **db_prams)
 
    return cls(db_pool)
 
  def __init__(self, db_pool):
    # 將連接池對(duì)象賦值self.db_pool屬性
    self.db_pool = db_pool
 
  def process_item(self, item, spider):
 
    # 準(zhǔn)備sql
    # 執(zhí)行sql
    # 執(zhí)行一個(gè)將item數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù)的動(dòng)作
    # 1.執(zhí)行操作的函數(shù)
    # 2.執(zhí)行函數(shù)需要的參數(shù)....
    query = self.db_pool.runInteraction(self.insert_item, item)
    # 執(zhí)行sql出現(xiàn)異常錯(cuò)誤時(shí),回調(diào)的函數(shù)
    query.addErrback(self.handle_error, item, spider)
 
    return item
 
  # 插入數(shù)據(jù)出現(xiàn)錯(cuò)誤時(shí),回調(diào)的函數(shù)
  def handle_error(self, failure, item, spider):
    print(failure)
    print(item)
 
  # 執(zhí)行插入數(shù)據(jù)的函數(shù)
  def insert_item(self, cursor, item):
    # 創(chuàng)建sql
    sql = "INSERT INTO ivs(alt,src)VALUES(%s,%s)"
    # 執(zhí)行sql
    cursor.execute(sql,(item['alt'], item['src']))

6. pipeline在settings中的配置

ITEM_PIPELINES = {
  # 'ivsky_spider.pipelines.MysqlPipeline': 300,
  'ivsky_spider.pipelines.TwistedMysqlPipeline': 300,
}

代碼到這里就結(jié)束了。

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python函數(shù)中的可變長(zhǎng)參數(shù)詳解

    Python函數(shù)中的可變長(zhǎng)參數(shù)詳解

    在本篇文章里小編給大家整理的是關(guān)于Python函數(shù)中的可變長(zhǎng)參數(shù)的相關(guān)知識(shí)點(diǎn)內(nèi)容,有需要的朋友們參考下。
    2019-09-09
  • Python數(shù)據(jù)可視化制作全球地震散點(diǎn)圖

    Python數(shù)據(jù)可視化制作全球地震散點(diǎn)圖

    這篇文章主要介紹了Python數(shù)據(jù)可視化制作全球地震散點(diǎn)圖,文章圍繞主題展開(kāi)詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的朋友可以參考一下
    2022-08-08
  • python中嵌套函數(shù)的實(shí)操步驟

    python中嵌套函數(shù)的實(shí)操步驟

    在本文里我們給大家分享了關(guān)于python中嵌套函數(shù)的步驟圖文分解,有需要的朋友們跟著學(xué)習(xí)下。
    2019-02-02
  • python—sys模塊之獲取參數(shù)的操作

    python—sys模塊之獲取參數(shù)的操作

    這篇文章主要介紹了python—sys模塊之獲取參數(shù)的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • Python中條件語(yǔ)句、循環(huán)語(yǔ)句和pass語(yǔ)句的使用示例

    Python中條件語(yǔ)句、循環(huán)語(yǔ)句和pass語(yǔ)句的使用示例

    Python條件語(yǔ)句是通過(guò)一條或多條語(yǔ)句的執(zhí)行結(jié)果(True或者False)來(lái)決定執(zhí)行的代碼塊,下面這篇文章主要給大家介紹了關(guān)于Python中條件語(yǔ)句、循環(huán)語(yǔ)句和pass語(yǔ)句使用的相關(guān)資料,需要的朋友可以參考下
    2022-06-06
  • Python接口自動(dòng)化之request請(qǐng)求封裝源碼分析

    Python接口自動(dòng)化之request請(qǐng)求封裝源碼分析

    這篇文章主要介紹了Python接口自動(dòng)化之request請(qǐng)求封裝源碼分析,文章圍繞主題的相關(guān)資料展開(kāi)詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,感興趣的小伙伴可以參考一下
    2022-06-06
  • 詳解Pandas如何高效對(duì)比處理DataFrame的兩列數(shù)據(jù)

    詳解Pandas如何高效對(duì)比處理DataFrame的兩列數(shù)據(jù)

    我們?cè)谟?pandas?處理數(shù)據(jù)的時(shí)候,經(jīng)常會(huì)遇到用其中一列數(shù)據(jù)替換另一列數(shù)據(jù)的場(chǎng)景。這一類(lèi)的需求估計(jì)很多人都遇到,當(dāng)然還有其它更復(fù)雜的。解決這類(lèi)需求的辦法有很多,這里我們來(lái)推薦幾個(gè)
    2022-09-09
  • Python使用Pickle庫(kù)實(shí)現(xiàn)讀寫(xiě)序列操作示例

    Python使用Pickle庫(kù)實(shí)現(xiàn)讀寫(xiě)序列操作示例

    這篇文章主要介紹了Python使用Pickle庫(kù)實(shí)現(xiàn)讀寫(xiě)序列操作,結(jié)合實(shí)例形式分析了pickle模塊的功能、常用函數(shù)以及序列化與反序列化相關(guān)操作技巧,需要的朋友可以參考下
    2018-06-06
  • python實(shí)現(xiàn)canny邊緣檢測(cè)

    python實(shí)現(xiàn)canny邊緣檢測(cè)

    本文主要講解了canny邊緣檢測(cè)原理:計(jì)算梯度幅值和方向、根據(jù)角度對(duì)幅值進(jìn)行非極大值抑制、用雙閾值算法檢測(cè)和連接邊緣以及python 實(shí)現(xiàn)
    2020-09-09
  • 在Python中如何讓字典保持有序

    在Python中如何讓字典保持有序

    這篇文章主要介紹了在Python中如何讓字典保持有序,文章基于python的相關(guān)資料展開(kāi)詳細(xì)內(nèi)容,需要的小伙伴可以參考一下
    2022-04-04

最新評(píng)論