欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲(chóng)之爬取某文庫(kù)文檔數(shù)據(jù)

 更新時(shí)間:2021年04月20日 16:31:23   作者:松鼠愛(ài)吃餅干  
這篇文章主要介紹了Python爬蟲(chóng)之爬取某文庫(kù)文檔數(shù)據(jù),文中有非常詳細(xì)的代碼示例,對(duì)正在學(xué)python的小伙伴們有很好地幫助,需要的朋友可以參考下

一、基本開(kāi)發(fā)環(huán)境

Python 3.6

Pycharm

二、相關(guān)模塊的使用

import os
import requests
import time
import re
import json
from docx import Document
from docx.shared import Cm

安裝Python并添加到環(huán)境變量,pip安裝需要的相關(guān)模塊即可。

三、目標(biāo)網(wǎng)頁(yè)分析

網(wǎng)站的文檔內(nèi)容,都是以圖片形式存在的。它有自己的數(shù)據(jù)接口

接口鏈接:

https://openapi.book118.com/getPreview.html?&project_id=1&aid=272112230&t=f2c66902d6b63726d8e08b557fef90fb&view_token=SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1&page=1&callback=jQuery18304186406662159248_1614492889385&_=1614492889486

接口的請(qǐng)求參數(shù)

四、整體思路

  • 請(qǐng)求網(wǎng)頁(yè)返回response數(shù)據(jù)(字符串)
  • 通過(guò)re模塊匹配提取中間的數(shù)據(jù)(列表)索引取0(字符串)
  • 通過(guò)json模塊是把提取出來(lái)的數(shù)據(jù)轉(zhuǎn)換成json模塊
  • 通過(guò)遍歷獲取每張圖片的url地址
  • 保存圖片到本地文件夾
  • 把圖片保存到word文檔
  • 爬蟲(chóng)代碼實(shí)現(xiàn)

五、爬蟲(chóng)代碼實(shí)現(xiàn)

def download():
    content = 0
    for page in range(1, 96, 6):
        # 給定 2秒延時(shí)
        time.sleep(2)
        # 獲取時(shí)間戳
        now_time = int(time.time() * 1000)
        url = 'https://openapi.book118.com/getPreview.html'
        # 請(qǐng)求參數(shù)
        params = {
            'project_id': '1',
            'aid': '272112230',
            't': 'f2c66902d6b63726d8e08b557fef90fb',
            'view_token': 'SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1',
            'page': f'{page}',
            '_': now_time,
        }
        # 請(qǐng)求頭
        headers = {
            'Host': 'openapi.book118.com',
            'Referer': 'https://max.book118.com/html/2020/0427/8026036013002110.shtm',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
        }
        response = requests.get(url=url, params=params, headers=headers)
        # 使用正則表達(dá)式提取內(nèi)容
        result = re.findall('jsonpReturn\((.*?)\)', response.text)[0]
        # 字符串轉(zhuǎn)json數(shù)據(jù)
        json_data = json.loads(result)['data']
        # 字典值的遍歷
        for value in json_data.values():
            content += 1
            # 拼接圖片url
            img_url = 'http:' + value
            print(img_url)
            headers_1 = {
                'Host': 'view-cache.book118.com',
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
            }
            # 請(qǐng)求圖片url地址 獲取content二進(jìn)制數(shù)據(jù)
            img_content = requests.get(url=img_url, headers=headers_1).content
            # 文件名
            img_name = str(content) + '.jpg'
            # 保存路徑
            filename = 'img\\'
            # 以二進(jìn)制方式保存 (圖片、音頻、視頻等文件都是以二進(jìn)制的方式保存)
            with open(filename + img_name, mode='wb') as f:
                f.write(img_content)

注意點(diǎn):

1、一定要給延時(shí),不然后面接口數(shù)據(jù)會(huì)請(qǐng)求不到。

2、請(qǐng)求圖片url的時(shí)候headers參數(shù)需要寫(xiě)完整,否則保存圖片是無(wú)法打開(kāi)的

3、命名最好是給定數(shù)字,1.jpg、2.jpg 這樣,方便后續(xù)保存到word

爬蟲(chóng)部分的代碼還是比較簡(jiǎn)單的,沒(méi)有什么特別的難度。

爬取這些文檔,都是需要打印或者查詢所以要把這些單張的圖片都保存到word文檔里面。

六、寫(xiě)入文檔

def save_picture():
    document = Document()
    path = './img/'
    lis = os.listdir(path)
    c = []
    for li in lis:
        index = li.replace('.jpg', '')
        c.append(index)
    c_1 = sorted(list(map(int, c)))
    print(c_1)
    new_files = [(str(i) + '.jpg') for i in c_1]
    for num in new_files:
        img_path = path + num
        document.add_picture(img_path, width=Cm(17), height=Cm(24))
        document.save('tu.doc')  # 保存文檔
        os.remove(img_path)  # 刪除保存在本地的圖片

到此這篇關(guān)于Python爬蟲(chóng)之爬取某文庫(kù)文檔數(shù)據(jù)的文章就介紹到這了,更多相關(guān)python爬取文檔數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python實(shí)現(xiàn)將Excel轉(zhuǎn)換成xml的方法示例

    Python實(shí)現(xiàn)將Excel轉(zhuǎn)換成xml的方法示例

    這篇文章主要介紹了Python實(shí)現(xiàn)將Excel轉(zhuǎn)換成xml的方法,涉及Python針對(duì)Excel文件的讀取、遍歷、節(jié)點(diǎn)設(shè)置與xml生成等相關(guān)操作技巧,需要的朋友可以參考下
    2018-08-08
  • 如何在django中運(yùn)行scrapy框架

    如何在django中運(yùn)行scrapy框架

    這篇文章主要介紹了如何在django中運(yùn)行scrapy框架,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-04-04
  • Python中break語(yǔ)句和continue語(yǔ)句的用法講解

    Python中break語(yǔ)句和continue語(yǔ)句的用法講解

    在Python中,break語(yǔ)句和continue語(yǔ)句一般用于循環(huán)語(yǔ)句中,這篇文章主要介紹了Python中break語(yǔ)句和continue語(yǔ)句的用法小結(jié),需要的朋友可以參考下
    2022-12-12
  • Python+Pygame實(shí)現(xiàn)簡(jiǎn)單的射擊小游戲

    Python+Pygame實(shí)現(xiàn)簡(jiǎn)單的射擊小游戲

    要說(shuō)什么游戲能夠獲得大家的喜愛(ài),唯射擊游戲莫屬!本文將利用Python和Pygame庫(kù)制作一個(gè)簡(jiǎn)單的射擊小游戲,感興趣的小伙伴可以了解一下
    2022-04-04
  • 詳解Python Matplot中文顯示完美解決方案

    詳解Python Matplot中文顯示完美解決方案

    這篇文章主要介紹了Python Matplot中文顯示完美解決方案,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-03-03
  • Python跨文件全局變量的實(shí)現(xiàn)方法示例

    Python跨文件全局變量的實(shí)現(xiàn)方法示例

    我們?cè)谑褂肞ython編寫(xiě)應(yīng)用的時(shí)候,有時(shí)候會(huì)遇到多個(gè)文件之間傳遞同一個(gè)全局變量的情況。所以下面這篇文章主要給大家介紹了關(guān)于Python跨文件全局變量的實(shí)現(xiàn)方法,需要的朋友可以參考借鑒,下面來(lái)一起看看吧。
    2017-12-12
  • Python多個(gè)MP4合成視頻的實(shí)現(xiàn)方法

    Python多個(gè)MP4合成視頻的實(shí)現(xiàn)方法

    最近接觸了個(gè)項(xiàng)目,需要把多個(gè)文件合成一個(gè)視頻,本文主要使用Python把多個(gè)MP4合成視頻,感興趣的可以了解一下
    2021-07-07
  • Python 2.7.x 和 3.x 版本的重要區(qū)別小結(jié)

    Python 2.7.x 和 3.x 版本的重要區(qū)別小結(jié)

    這篇文章主要介紹了Python 2.7.x 和 3.x 版本的重要區(qū)別小結(jié),需要的朋友可以參考下
    2014-11-11
  • PyCharm 2020.1版安裝破解注冊(cè)碼永久激活(激活到2089年)

    PyCharm 2020.1版安裝破解注冊(cè)碼永久激活(激活到2089年)

    這篇文章主要介紹了PyCharm 2020.1版安裝破解注冊(cè)碼永久激活(激活到2089年),需要的朋友可以參考下
    2020-09-09
  • Python實(shí)現(xiàn)為PDF去除水印的示例代碼

    Python實(shí)現(xiàn)為PDF去除水印的示例代碼

    這篇文章主要介紹了如何利用Python實(shí)現(xiàn)PDF去除水印功能,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2022-04-04

最新評(píng)論