欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python7個(gè)爬蟲(chóng)小案例詳解(附源碼)上篇

 更新時(shí)間:2023年01月11日 17:05:27   作者:艾派森  
這篇文章主要介紹了Python7個(gè)爬蟲(chóng)小案例詳解(附源碼)上篇,本文章內(nèi)容詳細(xì),通過(guò)案例可以更好的理解爬蟲(chóng)的相關(guān)知識(shí),七個(gè)例子分為了三部分,本次為上篇,共有二道題,需要的朋友可以參考下

本次的7個(gè)python爬蟲(chóng)小案例涉及到了re正則、xpath、beautiful soup、selenium等知識(shí)點(diǎn),非常適合剛?cè)腴Tpython爬蟲(chóng)的小伙伴參考學(xué)習(xí)。

前言

關(guān)于Python7個(gè)爬蟲(chóng)小案例的文章分為三篇,本篇為上篇,共兩題,其余兩篇內(nèi)容請(qǐng)關(guān)注!

題目一:

使用正則表達(dá)式和文件操作爬取并保存“百度貼吧”某帖子全部?jī)?nèi)容(該帖不少于5頁(yè))

 本次選取的是百度貼吧中的NBA吧中的一篇帖子,帖子標(biāo)題是“克萊和哈登,誰(shuí)歷史地位更高”。爬取的目標(biāo)是帖子里面的回復(fù)內(nèi)容。

源程序和關(guān)鍵結(jié)果截圖:

import csv
import requests
import re
import time
 
def main(page):
    url = f'https://tieba.baidu.com/p/7882177660?pn={page}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
    }
    resp = requests.get(url,headers=headers)
    html = resp.text
    # 評(píng)論內(nèi)容
    comments = re.findall('style="display:;">                    (.*?)</div>',html)
    # 評(píng)論用戶
    users = re.findall('class="p_author_name j_user_card" href=".*?" rel="external nofollow"  target="_blank">(.*?)</a>',html)
    # 評(píng)論時(shí)間
    comment_times = re.findall('樓</span><span class="tail-info">(.*?)</span><div',html)
    for u,c,t in zip(users,comments,comment_times):
        # 篩選數(shù)據(jù),過(guò)濾掉異常數(shù)據(jù)
        if 'img' in c or 'div' in c or len(u)>50:
            continue
        csvwriter.writerow((u,t,c))
        print(u,t,c)
    print(f'第{page}頁(yè)爬取完畢')
 
if __name__ == '__main__':
    with open('01.csv','a',encoding='utf-8')as f:
        csvwriter = csv.writer(f)
        csvwriter.writerow(('評(píng)論用戶','評(píng)論時(shí)間','評(píng)論內(nèi)容'))
        for page in range(1,8):  # 爬取前7頁(yè)的內(nèi)容
            main(page)
            time.sleep(2)

題目二:

實(shí)現(xiàn)多線程爬蟲(chóng)爬取某小說(shuō)部分章節(jié)內(nèi)容并以數(shù)據(jù)庫(kù)存儲(chǔ)(不少于10個(gè)章節(jié)) 

 本次選取的小說(shuō)網(wǎng)址是全本小說(shuō)網(wǎng)https://www.qb5.tw/,這里我們選取第一篇小說(shuō)進(jìn)行爬取

然后通過(guò)分析網(wǎng)頁(yè)源代碼分析每章小說(shuō)的鏈接

找到鏈接的位置后,我們使用Xpath來(lái)進(jìn)行鏈接和每一章標(biāo)題的提取

在這里,因?yàn)樯婕暗蕉啻问褂胷equests發(fā)送請(qǐng)求,所以這里我們把它封裝成一個(gè)函數(shù),便于后面的使用

每一章的鏈接獲取后,我們開(kāi)始進(jìn)入小說(shuō)章節(jié)內(nèi)容頁(yè)面進(jìn)行分析

通過(guò)網(wǎng)頁(yè)分析,小說(shuō)內(nèi)容都在網(wǎng)頁(yè)源代碼中,屬于靜態(tài)數(shù)據(jù)

這里我們選用re正則表達(dá)式進(jìn)行數(shù)據(jù)提取,并對(duì)最后的結(jié)果進(jìn)行清洗

然后我們需要將數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中,這里我將爬取的數(shù)據(jù)存儲(chǔ)到mysql數(shù)據(jù)庫(kù)中,先封住一下數(shù)據(jù)庫(kù)的操作

接著將爬取到是數(shù)據(jù)進(jìn)行保存

最后一步就是使用多線程來(lái)提高爬蟲(chóng)效率,這里我們創(chuàng)建了5個(gè)線程的線程池

 源代碼及結(jié)果截圖:

import requests
from lxml import etree
import re
import pymysql
from time import sleep
from concurrent.futures import ThreadPoolExecutor
 
def get_conn():
    # 創(chuàng)建連接
    conn = pymysql.connect(host="127.0.0.1",
                           user="root",
                           password="root",
                           db="novels",
                           charset="utf8")
    # 創(chuàng)建游標(biāo)
    cursor = conn.cursor()
    return conn, cursor
 
def close_conn(conn, cursor):
    cursor.close()
    conn.close()
 
def get_xpath_resp(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'}
    resp = requests.get(url, headers=headers)
    tree = etree.HTML(resp.text)  # 用etree解析html
    return tree,resp
 
def get_chapters(url):
    tree,_ = get_xpath_resp(url)
    # 獲取小說(shuō)名字
    novel_name = tree.xpath('//*[@id="info"]/h1/text()')[0]
    # 獲取小說(shuō)數(shù)據(jù)節(jié)點(diǎn)
    dds = tree.xpath('/html/body/div[4]/dl/dd')
    title_list = []
    link_list = []
    for d in dds[:15]:
        title = d.xpath('./a/text()')[0]  # 章節(jié)標(biāo)題
        title_list.append(title)
        link = d.xpath('./a/@href')[0]   # 章節(jié)鏈接
        chapter_url = url +link  # 構(gòu)造完整鏈接
        link_list.append(chapter_url)
    return title_list,link_list,novel_name
 
def get_content(novel_name,title,url):
    try:
        cursor = None
        conn = None
        conn, cursor = get_conn()
        # 插入數(shù)據(jù)的sql
        sql = 'INSERT INTO novel(novel_name,chapter_name,content) VALUES(%s,%s,%s)'
        tree,resp = get_xpath_resp(url)
        # 獲取內(nèi)容
        content = re.findall('<div id="content">(.*?)</div>',resp.text)[0]
        # 對(duì)內(nèi)容進(jìn)行清洗
        content = content.replace('<br />','\n').replace('&nbsp;',' ').replace('全本小說(shuō)網(wǎng) www.qb5.tw,最快更新<a  rel="external nofollow" >宇宙職業(yè)選手</a>最新章節(jié)!<br><br>','')
        print(title,content)
        cursor.execute(sql,[novel_name,title,content])  # 插入數(shù)據(jù)
        conn.commit()  # 提交事務(wù)保存數(shù)據(jù)
    except:
        pass
    finally:
        sleep(2)
        close_conn(conn, cursor)  # 關(guān)閉數(shù)據(jù)庫(kù)
 
 
if __name__ == '__main__':
    # 獲取小說(shuō)名字,標(biāo)題鏈接,章節(jié)名稱
    title_list, link_list, novel_name = get_chapters('https://www.qb5.tw/book_116659/')
    with ThreadPoolExecutor(5) as t:  # 創(chuàng)建5個(gè)線程
        for title,link in zip(title_list,link_list):
            t.submit(get_content, novel_name,title,link)  # 啟動(dòng)線程

到此這篇關(guān)于Python7個(gè)爬蟲(chóng)小案例詳解(附源碼)上篇的文章就介紹到這了,其他兩個(gè)部分的內(nèi)容(中、下篇)請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python深度學(xué)習(xí)實(shí)戰(zhàn)PyQt5安裝與環(huán)境配置過(guò)程詳解

    Python深度學(xué)習(xí)實(shí)戰(zhàn)PyQt5安裝與環(huán)境配置過(guò)程詳解

    本系列面向 Python 小白,從零開(kāi)始實(shí)戰(zhàn)解說(shuō)應(yīng)用 QtDesigner 進(jìn)行 PyQt5 的項(xiàng)目實(shí)戰(zhàn)。什么叫從零開(kāi)始?從軟件安裝、環(huán)境配置開(kāi)始。不跳過(guò)一個(gè)細(xì)節(jié),不漏掉一行代碼,不省略一個(gè)例圖
    2021-10-10
  • python使用pymongo與MongoDB基本交互操作示例

    python使用pymongo與MongoDB基本交互操作示例

    這篇文章主要介紹了python使用pymongo與MongoDB基本交互操作,結(jié)合實(shí)例形式詳細(xì)分析了python基于pymongo庫(kù)實(shí)現(xiàn)與MongoDB基本交互相關(guān)操作技巧與注意事項(xiàng),需要的朋友可以參考下
    2020-04-04
  • Tensorflow 訓(xùn)練自己的數(shù)據(jù)集將數(shù)據(jù)直接導(dǎo)入到內(nèi)存

    Tensorflow 訓(xùn)練自己的數(shù)據(jù)集將數(shù)據(jù)直接導(dǎo)入到內(nèi)存

    這篇文章主要介紹了Tensorflow 訓(xùn)練自己的數(shù)據(jù)集將數(shù)據(jù)直接導(dǎo)入到內(nèi)存,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2018-06-06
  • Django-imagekit的使用詳解

    Django-imagekit的使用詳解

    ImageKit是一個(gè)用于處理圖像的Django應(yīng)用程序。這篇文章主要介紹了Django-imagekit的使用,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-07-07
  • Python pandas自定義函數(shù)的使用方法示例

    Python pandas自定義函數(shù)的使用方法示例

    這篇文章主要介紹了Python pandas自定義函數(shù)的使用方法,結(jié)合實(shí)例形式分析了pandas模塊相關(guān)自定義函數(shù)數(shù)值運(yùn)算操作技巧,需要的朋友可以參考下
    2019-11-11
  • Python常用內(nèi)置函數(shù)的使用教程詳解

    Python常用內(nèi)置函數(shù)的使用教程詳解

    Python官方文檔對(duì)于內(nèi)置函數(shù)的介紹較為簡(jiǎn)略,但這些內(nèi)置函數(shù)在日常工作中卻扮演著不可或缺的角色。這篇文章為大家介紹了Python常用內(nèi)置函數(shù)的使用,需要的可以參考一下
    2023-04-04
  • 淺談django model的get和filter方法的區(qū)別(必看篇)

    淺談django model的get和filter方法的區(qū)別(必看篇)

    下面小編就為大家?guī)?lái)一篇淺談django model的get和filter方法的區(qū)別(必看篇)。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2017-05-05
  • Python算法之圖的遍歷

    Python算法之圖的遍歷

    這篇文章主要介紹了Python算法之圖的遍歷,涉及遍歷算法BFS和DFS,以及尋找圖的(強(qiáng))連通分量的算法等相關(guān)內(nèi)容,具有一定參考價(jià)值,需要的朋友可以了解下。
    2017-11-11
  • Python 通過(guò)監(jiān)聽(tīng)端口實(shí)現(xiàn)唯一腳本運(yùn)行方式

    Python 通過(guò)監(jiān)聽(tīng)端口實(shí)現(xiàn)唯一腳本運(yùn)行方式

    這篇文章主要介紹了Python 通過(guò)監(jiān)聽(tīng)端口實(shí)現(xiàn)唯一腳本運(yùn)行方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-05-05
  • Python中的字符串判斷

    Python中的字符串判斷

    本文通過(guò)實(shí)例代碼介紹了Python中的字符串判斷,代碼簡(jiǎn)單易懂,對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧
    2023-10-10

最新評(píng)論