欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

scrapy+flask+html打造搜索引擎的示例代碼

 更新時(shí)間:2021年07月25日 15:46:44   作者:努力的蝸牛_沖沖  
本文主要介紹了scrapy+flask+html打造搜索引擎的示例代碼,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下

1.預(yù)備知識

python語言,scrapy爬蟲基礎(chǔ),json模塊,flask后端

2.抓取CSDN數(shù)據(jù)接口

使用谷歌抓包工具抓取CSDN搜索引擎的接口

2.1 查看CSDN搜索引擎主頁

查看CSDN搜索引擎主頁https://so.csdn.net/,截圖如下:

在這里插入圖片描述

2.2測試CSDN搜索引擎的功能

測試CSDN搜索引擎的功能,嘗試輸入?yún)?shù)之后,查看返回的文章信息列表,測試如下:

在這里插入圖片描述

經(jīng)過測試發(fā)現(xiàn),CSDN搜索引擎的主要功能是,搜索所有跟python有關(guān)的文章,然后根據(jù)文章熱度,點(diǎn)贊量,留言數(shù)進(jìn)行一個(gè)綜合排序,展示給用戶排序后的文章結(jié)果。這樣來說,我們的主要任務(wù)就是利用抓包抓取到前后端傳輸數(shù)據(jù)的接口,通過接口,來實(shí)現(xiàn)整個(gè)搜索引擎的效果。

2.3查看更多相關(guān)文章的信息

讓我們把前端滑輪移到最后,發(fā)現(xiàn)并沒有頁數(shù)的標(biāo)簽,而是通過自動(dòng)加載數(shù)據(jù)來呈現(xiàn),效果如下:

在這里插入圖片描述

在這里插入圖片描述

在不刷新整個(gè)頁面的基礎(chǔ)上加載新的數(shù)據(jù),這很容易讓我們聯(lián)想到ajax異步請求。
異步請求通常就是利用ajax技術(shù),能在不更新整個(gè)頁面的前提下維護(hù)數(shù)據(jù)。這使得Web應(yīng)用程序更為迅捷地回應(yīng)用戶動(dòng)作,并避免了在網(wǎng)絡(luò)上發(fā)送那些沒有改變的信息。
接下來我們嘗試?yán)霉雀铻g覽器抓取異步請求的信息。

2.4抓取ajax異步請求數(shù)據(jù)

使用谷歌瀏覽器抓取ajax異步請求數(shù)據(jù)
為了避免干擾因素,我們在抓包前需要點(diǎn)擊clear按鈕,清空當(dāng)前的抓包記錄

在這里插入圖片描述

將滑塊移動(dòng)到最后,使前端頁面自動(dòng)加載數(shù)據(jù),分析數(shù)據(jù)加載時(shí)抓取到的數(shù)據(jù)包信息。通過多次分析驗(yàn)證,發(fā)現(xiàn)結(jié)果有一個(gè)get請求攜帶著大量的刷新時(shí)的數(shù)據(jù)。如下圖所示:

在這里插入圖片描述

是JSON格式的數(shù)據(jù),這里簡單介紹一下JSON格式的數(shù)據(jù)。
JSON 是前后端傳輸數(shù)據(jù)最常見的用法之一,是從 web 服務(wù)器上讀取 JSON 數(shù)據(jù)(作為文件或作為 HttpRequest),將 JSON 數(shù)據(jù)轉(zhuǎn)換為 JavaScript 對象,然后在網(wǎng)頁中使用該數(shù)據(jù)。
通過分析,我們可以發(fā)現(xiàn)數(shù)據(jù)是存放在result_vos列表下的各個(gè)字典中的,我們可以使用循環(huán),然后通過dict[“xxx”]的方式來提取數(shù)據(jù)。

2.5 分析url地址

在這里插入圖片描述

我們發(fā)現(xiàn)這個(gè)GET請求攜帶了大量的未知參數(shù),通過經(jīng)驗(yàn)分析,以及英語首字母,我們可以猜測P是page(頁),Q是query(查詢)的意思,其他xxx=-1應(yīng)該是默認(rèn)值,我們暫時(shí)按照這個(gè)猜測進(jìn)行刪減參數(shù)。
測試結(jié)果截圖:

在這里插入圖片描述

通過測試,發(fā)現(xiàn)猜測正確,只保留了q、t、p三個(gè)參數(shù),依然可以訪問到傳輸?shù)臄?shù)據(jù)內(nèi)容(事實(shí)上,這里t參數(shù)也可以刪除,同學(xué)們可以自行測試)
這樣,這條url對應(yīng)的重要參數(shù)都分析出來了,鏈接如下:
https://so.csdn.net/api/v3/search?q=python&t=all&p=2
跟我們猜測的一樣,q是代表查詢,p是代表page,這樣我們已經(jīng)獲取到CSDN引擎的核心API,我們可以通過這條API來實(shí)現(xiàn)搜索引擎的功能。
至此,抓包分析過程結(jié)束。

3. 使用scrapy爬取CSDN數(shù)據(jù)接口

3.1 start_requests

使用start_requests函數(shù)進(jìn)行構(gòu)造20頁的url列表。
這里start_requests方法必須返回一個(gè)可迭代對象(iterable)。該對象包含了spider用于抓取的第一個(gè)Request。
當(dāng)spider開始抓取并且未指定start_urls時(shí),該方法將會被調(diào)用。該方法僅僅會被scrapy調(diào)用一次,因此可以將其實(shí)現(xiàn)為url生成器。
使用scrapy.Request可以發(fā)送一個(gè)GET請求,傳送到指定的函數(shù)進(jìn)行處理。
詳細(xì)代碼操作如下:

 # 重寫start_urls的方法
    def start_requests(self):
        # 這里是控制CSDN的文章類型
        input_text = input('請輸入要爬取的CSDN類型:')
        # 是控制爬取文章頁數(shù)
        for i in range(1,31):
            start_url = 'https://so.csdn.net/api/v3/search?q={}&p={}'.format(input_text,i)
            yield scrapy.Request(
                url=start_url,
                callback=self.parse
            )

3.2使用parse函數(shù)提取數(shù)據(jù)

這里需要掌握幾個(gè)重要的方法應(yīng)用

  • response.text 請求返回的響應(yīng)的字符串格式的數(shù)據(jù)
  • json.loads() loads方法是將str轉(zhuǎn)化為dict格式數(shù)據(jù)
  • json.dumps() dumps方法是將dict格式的數(shù)據(jù)轉(zhuǎn)化為str

具體代碼操作如下:

data_dict = json.loads(response.text)

使用循環(huán)遍歷json數(shù)據(jù)中的各個(gè)具體直播間數(shù)據(jù)的信息,新建一個(gè)item字典進(jìn)行數(shù)據(jù)存儲,然后使用yield傳遞給引擎進(jìn)行相應(yīng)的處理
代碼操作如下:

def parse(self, response):
   # response.request.headers
   print(response.request.headers)
   data_dict = json.loads(response.text)
    for data in data_dict['result_vos']:
            item = {}
         # 標(biāo)題
         item['title'] = data['title'].replace('<em>','').replace('</em>','')
         # 作者
         item['author_label'] = data['nickname']
         # 瀏覽量
         item['view'] = data['view']
         # 點(diǎn)贊量
         item['zan'] = data['digg']
         # 地址鏈接
         item['link_url'] = data['url']

3.3保存成CSV文件

import csv
定義csv文件需要的列標(biāo)題
headers = ['title','author_label','view','zan','jianjie' ,'link_url']
每次調(diào)用pipline的時(shí)候,都會運(yùn)行一遍
class Day02Pipeline:
    def process_item(self, item, spider):
        文件默認(rèn)保存到當(dāng)前目錄下的douyu.csv中
這里a是追加操作
        with open('csdn.csv', 'a', encoding='utf-8', newline='') as fa:
            保存headers規(guī)定的列名內(nèi)容
            writer = csv.DictWriter(fa, headers)
            writer.writerow(item)
            print(item)
      return item

3.4 運(yùn)行結(jié)果

最后,我們來查看一下運(yùn)行結(jié)果,以及保存好的csv文件
終端運(yùn)行結(jié)果如下:

在這里插入圖片描述

在這里插入圖片描述

至此,爬蟲實(shí)驗(yàn)結(jié)束。

4. 效果展示

4.1 flask后端展示

搭建過程略
(入門級搭建,沒有用企業(yè)級開發(fā)流程,后期可以考慮出flask的教程)
展示結(jié)構(gòu)如下:

在這里插入圖片描述

flask入門可自行百度

4.2 效果展示

在這里插入圖片描述

點(diǎn)擊搜索后:

在這里插入圖片描述

左上角的搜索頁面是入口頁面。

好了,這樣簡易版的搜索引擎就搭建好了。更多相關(guān)scrapy+flask+html搜索引擎內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Pytorch中torch.repeat_interleave()函數(shù)使用及說明

    Pytorch中torch.repeat_interleave()函數(shù)使用及說明

    這篇文章主要介紹了Pytorch中torch.repeat_interleave()函數(shù)使用及說明,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-01-01
  • 如何利用Python獲取鼠標(biāo)的實(shí)時(shí)位置

    如何利用Python獲取鼠標(biāo)的實(shí)時(shí)位置

    這篇文章主要給大家介紹了關(guān)于如何利用Python獲取鼠標(biāo)的實(shí)時(shí)位置的相關(guān)資料,主要利用的是pyautogui,一個(gè)自動(dòng)化鍵鼠操作的Python類庫,需要的朋友可以參考下
    2022-01-01
  • 使用keras2.0 將Merge層改為函數(shù)式

    使用keras2.0 將Merge層改為函數(shù)式

    這篇文章主要介紹了使用keras2.0 將Merge層改為函數(shù)式,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-05-05
  • Python線程之同步機(jī)制實(shí)際應(yīng)用場景舉例說明

    Python線程之同步機(jī)制實(shí)際應(yīng)用場景舉例說明

    這篇文章主要給大家分享的是Python線程之同步機(jī)制實(shí)際應(yīng)用場景舉例說明,銀行轉(zhuǎn)賬小栗子供大家參考學(xué)習(xí),希望對你有一定的幫助
    2022-02-02
  • python編程使用PyQt制作預(yù)覽窗口游戲中的小地圖

    python編程使用PyQt制作預(yù)覽窗口游戲中的小地圖

    這篇文章主要為大家介紹了python使用PyQt制作預(yù)覽窗口游戲中的小地圖實(shí)現(xiàn)示例過程,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步
    2021-10-10
  • Python?八個(gè)數(shù)據(jù)清洗實(shí)例代碼詳解

    Python?八個(gè)數(shù)據(jù)清洗實(shí)例代碼詳解

    不管你承不承認(rèn),數(shù)據(jù)清洗著實(shí)不是一件簡單的任務(wù),大多數(shù)情況下這項(xiàng)工作是十分耗時(shí)而乏味的,但它又是十分重要的,本篇文章帶給你八個(gè)實(shí)例代碼
    2022-01-01
  • 基于python goto的正確用法說明

    基于python goto的正確用法說明

    這篇文章主要介紹了基于python goto的正確用法說明,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • Python 可愛的大小寫

    Python 可愛的大小寫

    和其他語言一樣,Python為string對象提供了轉(zhuǎn)換大小寫的方法:upper() 和 lower()。還不止這些,Python還為我們提供了首字母大寫,其余小寫的capitalize()方法,以及所有單詞首字母大寫,其余小寫的title()方法。
    2008-09-09
  • python BeautifulSoup使用方法詳解

    python BeautifulSoup使用方法詳解

    Beautiful Soup 是用Python寫的一個(gè)HTML/XML的解析器,它可以很好的處理不規(guī)范標(biāo)記并生成剖析樹(parse tree)。 它提供簡單又常用的導(dǎo)航(navigating),搜索以及修改剖析樹的操作。它可以大大節(jié)省你的編程時(shí)間,下面我們就看看他是如何使用
    2013-11-11
  • Pycharm使用Conda激活環(huán)境失敗的問題解決

    Pycharm使用Conda激活環(huán)境失敗的問題解決

    本文主要介紹了Pycharm使用Conda激活環(huán)境失敗的問題解決,文中主要介紹了兩種問題的解決,具有一定的參考價(jià)值,感興趣的可以了解一下
    2023-09-09

最新評論