python scrapy爬蟲(chóng)代碼及填坑
涉及到詳情頁(yè)爬取
目錄結(jié)構(gòu):
kaoshi_bqg.py
import scrapy from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor from ..items import BookBQGItem class KaoshiBqgSpider(scrapy.Spider): name = 'kaoshi_bqg' allowed_domains = ['biquge5200.cc'] start_urls = ['https://www.biquge5200.cc/xuanhuanxiaoshuo/'] rules = ( # 編寫匹配文章列表的規(guī)則 Rule(LinkExtractor(allow=r'https://www.biquge5200.cc/xuanhuanxiaoshuo/'), follow=True), # 匹配文章詳情 Rule(LinkExtractor(allow=r'.+/[0-9]{1-3}_[0-9]{2-6}/'), callback='parse_item', follow=False), ) # 小書(shū)書(shū)名 def parse(self, response): a_list = response.xpath('//*[@id="newscontent"]/div[1]/ul//li//span[1]/a') for li in a_list: name = li.xpath(".//text()").get() detail_url = li.xpath(".//@href").get() yield scrapy.Request(url=detail_url, callback=self.parse_book, meta={'info': name}) # 單本書(shū)所有的章節(jié)名 def parse_book(self, response): name = response.meta.get('info') list_a = response.xpath('//*[@id="list"]/dl/dd[position()>20]//a') for li in list_a: chapter = li.xpath(".//text()").get() url = li.xpath(".//@href").get() yield scrapy.Request(url=url, callback=self.parse_content, meta={'info': (name, chapter)}) # 每章節(jié)內(nèi)容 def parse_content(self, response): name, chapter = response.meta.get('info') content = response.xpath('//*[@id="content"]//p/text()').getall() item = BookBQGItem(name=name, chapter=chapter, content=content) yield item
xmly.py
# -*- coding: utf-8 -*- import scrapy from ..items import BookXMLYItem, BookChapterItem class XmlySpider(scrapy.Spider): name = 'xmly' allowed_domains = ['ximalaya.com'] start_urls = ['https://www.ximalaya.com/youshengshu/wenxue/'] def parse(self, response): div_details = response.xpath('//*[@id="root"]/main/section/div/div/div[3]/div[1]/div/div[2]/ul/li/div') # details = div_details[::3] for details in div_details: book_id = details.xpath('./div/a/@href').get().split('/')[-2] book_name = details.xpath('./a[1]/@title').get() book_author = details.xpath('./a[2]/text()').get() # 作者 book_url = details.xpath('./div/a/@href').get() url = 'https://www.ximalaya.com' + book_url # print(book_id, book_name, book_author, url) item = BookXMLYItem(book_id=book_id, book_name=book_name, book_author=book_author, book_url=url) yield item yield scrapy.Request(url=url, callback=self.parse_details, meta={'info': book_id}) def parse_details(self, response): book_id = response.meta.get('info') div_details = response.xpath('//*[@id="anchor_sound_list"]/div[2]/ul/li/div[2]') for details in div_details: chapter_id = details.xpath('./a/@href').get().split('/')[-1] chapter_name = details.xpath('./a/text()').get() chapter_url = details.xpath('./a/@href').get() url = 'https://www.ximalaya.com' + chapter_url item = BookChapterItem(book_id=book_id, chapter_id=chapter_id, chapter_name=chapter_name, chapter_url=url) yield item
item.py
import scrapy # 筆趣閣字段 class BookBQGItem(scrapy.Item): name = scrapy.Field() chapter = scrapy.Field() content = scrapy.Field() # 喜馬拉雅 字段 class BookXMLYItem(scrapy.Item): book_name = scrapy.Field() book_id = scrapy.Field() book_url = scrapy.Field() book_author = scrapy.Field() # 喜馬拉雅詳情字段 class BookChapterItem(scrapy.Item): book_id = scrapy.Field() chapter_id = scrapy.Field() chapter_name = scrapy.Field() chapter_url = scrapy.Field()
pipelines.py
from scrapy.exporters import JsonLinesItemExporter import os class BqgPipeline(object): def process_item(self, item, spider): xs = '小說(shuō)集' name = item['name'] xs_path = os.path.join(os.path.dirname(os.path.dirname(__file__)), xs) fiction_path = os.path.join(xs_path, name) # print(os.path.dirname(__file__)) D:/Users/Administrator/PycharmProjects/wh1901/biquge.com # print(os.path.dirname(os.path.dirname(__file__))) D:/Users/Administrator/PycharmProjects/wh1901 if not os.path.exists(xs_path): # 如果目錄不存在 os.mkdir(xs_path) if not os.path.exists(fiction_path): os.mkdir(fiction_path) # 創(chuàng)建目錄 chapter = item['chapter'] content = item['content'] file_path = os.path.join(fiction_path, chapter) + '.txt' # 在 該目錄下面創(chuàng)建 xx .txt 文件 with open(file_path, 'w', encoding='utf-8') as fp: fp.write(content + '\n') print('保存成功') # class XmlyPipeline(object): # def __init__(self): # self.fp = open("xmly.json", 'wb') # # JsonLinesItemExporter 調(diào)度器 # self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False) # # def process_item(self, item, spider): # self.exporter.export_item(item) # return item # # def close_item(self): # self.fp.close() # print("爬蟲(chóng)結(jié)束")
starts.py
from scrapy import cmdline cmdline.execute("scrapy crawl kaoshi_bqg".split()) # cmdline.execute("scrapy crawl xmly".split())
然后是爬取到的數(shù)據(jù)
小說(shuō)
xmly.json
記錄一下爬取過(guò)程中遇到的一點(diǎn)點(diǎn)問(wèn)題:
在爬取詳情頁(yè)的的時(shí)候, 剛開(kāi)始不知道怎么獲取詳情頁(yè)的 url 以及 上一個(gè)頁(yè)面拿到的字段
- 也就是 yield 返回 請(qǐng)求詳情頁(yè) 里面的參數(shù)沒(méi)有很好地理解
- meta:從其他請(qǐng)求傳過(guò)來(lái)的meta屬性,可以用來(lái)保持多個(gè)請(qǐng)求之間的數(shù)據(jù)連接。
- url:這個(gè)request對(duì)象發(fā)送請(qǐng)求的url。
- callback:在下載器下載完相應(yīng)的數(shù)據(jù)后執(zhí)行的回調(diào)函數(shù)。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- Python Scrapy框架:通用爬蟲(chóng)之CrawlSpider用法簡(jiǎn)單示例
- python網(wǎng)絡(luò)爬蟲(chóng) CrawlSpider使用詳解
- 簡(jiǎn)述python Scrapy框架
- 詳解Python的爬蟲(chóng)框架 Scrapy
- Python爬蟲(chóng)實(shí)例——scrapy框架爬取拉勾網(wǎng)招聘信息
- Python scrapy爬取小說(shuō)代碼案例詳解
- Python Scrapy多頁(yè)數(shù)據(jù)爬取實(shí)現(xiàn)過(guò)程解析
- python3 Scrapy爬蟲(chóng)框架ip代理配置的方法
- Python爬蟲(chóng)Scrapy框架CrawlSpider原理及使用案例
相關(guān)文章
Python數(shù)據(jù)分析之?Pandas?Dataframe合并和去重操作
這篇文章主要介紹了Python數(shù)據(jù)分析之?Pandas?Dataframe合并和去重操作,文章基于python的相關(guān)資料展開(kāi)詳細(xì)的內(nèi)容介紹,需要的小伙伴可以參考一下2022-05-05詳解python如何調(diào)用C/C++底層庫(kù)與互相傳值
Python作為一門腳本解釋語(yǔ)言,本身又很好的結(jié)合C++,所以使用Python開(kāi)發(fā),在性能要求的地方調(diào)用C/C++底層庫(kù),這簡(jiǎn)直是神器。本文詳細(xì)介紹了Python調(diào)用C/C++底層庫(kù),互相傳值問(wèn)題,下面一起來(lái)看看。2016-08-08python中的單引號(hào)雙引號(hào)區(qū)別知識(shí)點(diǎn)總結(jié)
在本篇文章中小編給大家整理了關(guān)于python中的單引號(hào)雙引號(hào)有什么區(qū)別的相關(guān)知識(shí)點(diǎn)以及實(shí)例代碼,需要的朋友們參考下。2019-06-06Tensor 和 NumPy 相互轉(zhuǎn)換的實(shí)現(xiàn)
本文主要介紹了Tensor 和 NumPy 相互轉(zhuǎn)換的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02python使用在線API查詢IP對(duì)應(yīng)的地理位置信息實(shí)例
這篇文章主要介紹了python使用在線API查詢IP對(duì)應(yīng)的地理位置信息實(shí)例,需要的朋友可以參考下2014-06-06python使用tkinter實(shí)現(xiàn)透明窗體上繪制隨機(jī)出現(xiàn)的小球(實(shí)例代碼)
今天教大家怎么實(shí)現(xiàn)Tkinter透明窗體,在上篇文章給大家介紹過(guò)透明窗體上繪制小球,今天接著通過(guò)實(shí)例代碼給大家分享python使用tkinter實(shí)現(xiàn)透明窗體上繪制隨機(jī)出現(xiàn)的小球的實(shí)例代碼,感興趣的朋友跟隨小編一起看看吧2021-05-05Python使用sftp實(shí)現(xiàn)上傳和下載功能
這篇文章主要為大家詳細(xì)介紹了Python使用sftp實(shí)現(xiàn)上傳和下載功能,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-04-04Pycharm連接遠(yuǎn)程服務(wù)器過(guò)程圖解
這篇文章主要介紹了Pycharm連接遠(yuǎn)程服務(wù)器過(guò)程圖解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-04-04