Python實(shí)現(xiàn)強(qiáng)制復(fù)制粘貼的示例詳解
前因后果
公司有人陽了,今天在家上班,突然小姨子就問我有沒有baidu文庫會(huì)員,想下載點(diǎn)東西,我心想這還要會(huì)員?用Python不是分分鐘的事情!
然后我非常自信的告訴她不用會(huì)員隨便下載,結(jié)果她順勢(shì)想來我家,還問我她姐姐在不在家,趁我一個(gè)人在家過來想干嘛?本著男孩子一個(gè)人在家要好好保護(hù)自己的原則,于是我過段拒絕了她!
兄弟們我做的對(duì)嗎?
咱們來開始今天的內(nèi)容,咱們不僅要強(qiáng)制復(fù)制粘貼,還要自動(dòng)保存到world文檔,就問你刑不刑!
需要的模塊
requests # 數(shù)據(jù)請(qǐng)求模塊
docx # 文檔保存
re # 內(nèi)置模塊 不需要安裝
除了 re 模塊,前面兩個(gè)都是第三方模塊,需要手動(dòng)安裝,win+r 打開運(yùn)行框輸入cmd,點(diǎn)擊確定彈出命令提示符窗口輸入 pip install 加上模塊名即可。
docx 需要加上Python ,pip install python-docx
流程思路
基本思路流程
一、分析數(shù)據(jù)來源
找文檔數(shù)據(jù)內(nèi)容, 是在那個(gè)url里面生成的,通過開發(fā)者工具進(jìn)行抓包分析。
- 打開開發(fā)者工具: F12 / 鼠標(biāo)右鍵點(diǎn)擊檢查選擇network
- 刷新網(wǎng)頁: 讓本網(wǎng)頁數(shù)據(jù)內(nèi)容重新加載一遍,如果你是非VIP賬號(hào), 看數(shù)據(jù), 圖片形式 —> 把數(shù)據(jù)<圖片> 獲取下來 —> 做文字識(shí)別;
- 分析文庫數(shù)據(jù)內(nèi)容,,圖片所在地址;
- 獲取所有圖片內(nèi)容: 文庫數(shù)據(jù) --> 圖片形式 —> 所有圖片內(nèi)容保存下載
- 文字識(shí)別, 把圖片文字識(shí)別出來, 保存word文檔里面
二、代碼實(shí)現(xiàn)步驟
1.發(fā)送請(qǐng)求, 模擬瀏覽器對(duì)于url地址發(fā)送請(qǐng)求
圖片數(shù)據(jù)包:
2.獲取數(shù)據(jù), 獲取服務(wù)器返回響應(yīng)數(shù)據(jù)
開發(fā)者工具: response
3.解析數(shù)據(jù), 提取圖片鏈接地址
4.保存數(shù)據(jù), 把圖片內(nèi)容保存到本地文件夾
5.做文字識(shí)別, 識(shí)別文字內(nèi)容
6.把文字?jǐn)?shù)據(jù)信息, 保存word文檔里面
代碼展示
導(dǎo)入模塊
# 導(dǎo)入數(shù)據(jù)請(qǐng)求模塊 import requests # 導(dǎo)入格式化輸出模塊 from pprint import pprint # 導(dǎo)入base64 import base64 # 導(dǎo)入os模塊 import os # 導(dǎo)入文檔模塊 from docx import Document # 導(dǎo)入正則 import re # 導(dǎo)入json import json
文字識(shí)別:
1. 注冊(cè)一個(gè)百度云API賬號(hào)
2. 創(chuàng)建應(yīng)用 并且去免費(fèi)領(lǐng)取資源
3. 在技術(shù)文檔里面 Access Token獲取
4. 調(diào)用API接口來做文字識(shí)別
client_id 為官網(wǎng)獲取的AK, client_secret 為官網(wǎng)獲取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=Gu7BGsfoKFZjLGvOKP7WezYv&client_secret=rGa2v2FcVnxBDFlerSW5H0D2eO7nRxdp' response = requests.get(host) access_token = response.json()['access_token']
通用文字識(shí)別(高精度版)
request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
二進(jìn)制方式打開圖片文件
f = open(file, 'rb') img = base64.b64encode(f.read()) params = {"image":img} request_url = request_url + "?access_token=" + access_token headers = {'content-type': 'application/x-www-form-urlencoded'} json_data = requests.post(request_url, data=params, headers=headers).json()
列表推導(dǎo)式
words = '\n'.join([i['words'] for i in json_data['words_result']]) return words
讀取文件夾里面所有圖片內(nèi)容
content_list = [] files = os.listdir('img\\') for file in files: filename = 'img\\' + file words = get_content(file=filename) print(words) content_list.append(words)
保存word文檔里面
doc = Document() # 添加第一段文檔內(nèi)容 content = '\n'.join(content_list) doc.add_paragraph(content) doc.save('data.docx')
發(fā)送請(qǐng)求,模擬瀏覽器對(duì)于url地址發(fā)送請(qǐng)求。
請(qǐng)求頭
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36' } html_data = requests.get(url=link, headers=headers).text json_data = json.loads(re.findall('var pageData = (.*?);', html_data)[0]) pprint(json_data) for j in json_data['aggInfo']['docList']: name = j['title'] # 名字 score = j['score'] # 評(píng)分 viewCount = j['viewCount'] # 閱讀量 downloadCount = j['downloadCount'] # 下載量 docId = j['docId'] # 數(shù)據(jù)包ID
確定請(qǐng)求鏈接
url = 'https://wenku.baidu.com/gsearch/rec/pcviewdocrec'
請(qǐng)求參數(shù)
data = { 'docId': docId, 'query': name, 'recPositions': '' }
請(qǐng)求頭
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36' }
發(fā)送請(qǐng)求
response = requests.get(url=url, params=data, headers=headers)
獲取數(shù)據(jù), 獲取服務(wù)器返回響應(yīng)數(shù)據(jù)
- response.json() 獲取響應(yīng)json字典數(shù)據(jù), 但是返回?cái)?shù)據(jù)必須是完整json數(shù)據(jù)格式 花括號(hào) {}
- response.text 獲取響應(yīng)文本數(shù)據(jù), 返回字符串 任何時(shí)候都可以, 但是基本獲取網(wǎng)頁源代碼的時(shí)候
- response.content 獲取響應(yīng)二進(jìn)制數(shù)據(jù), 返回字節(jié) 保存圖片/音頻/視頻/特定格式文件
解析數(shù)據(jù), 提取圖片鏈接地址
字典取值: 鍵值對(duì) 根據(jù)冒號(hào)左邊內(nèi)容[鍵], 提取冒號(hào)右邊的內(nèi)容[值]
for循環(huán)遍歷, 把列表里面元素一個(gè)一個(gè)提取出來
# 定義文件名 整型 num = 1 # for循環(huán)遍歷, 把列表里面元素一個(gè)一個(gè)提取出來 for index in response.json()['data']['relateDoc']: # index 字典呀 pic = index['pic'] print(pic)
保存數(shù)據(jù) 發(fā)送請(qǐng)求 + 獲取數(shù)據(jù) 二進(jìn)制數(shù)據(jù)內(nèi)容
img_content = requests.get(url=pic, headers=headers).content # 'img\\'<文件夾名字> + str(num)<文件名> + '.jpg'<文件后綴> mode='wb' 保存方式, 二進(jìn)制保存 # str(num) 強(qiáng)制轉(zhuǎn)換成 字符串 # '圖片\\' 相對(duì)路徑, 相對(duì)于你代碼的路徑 你代碼在那個(gè)地方, 那個(gè)代碼所在地方圖片文件夾 with open('圖片\\' + str(num) + '.jpg', mode='wb') as f: # 寫入數(shù)據(jù) 保存數(shù)據(jù) 把圖片二進(jìn)制數(shù)據(jù)保存 f.write(img_content) # 每次循環(huán) + 1 print(num) num += 1
效果展示
world文檔
以上就是Python實(shí)現(xiàn)強(qiáng)制復(fù)制粘貼的示例詳解的詳細(xì)內(nèi)容,更多關(guān)于Python強(qiáng)制復(fù)制粘貼的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
linux環(huán)境下安裝python虛擬環(huán)境及注意事項(xiàng)
這篇文章主要介紹了linux環(huán)境下安裝python虛擬環(huán)境,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-01-01OpenCV實(shí)現(xiàn)機(jī)器人對(duì)物體進(jìn)行移動(dòng)跟隨的方法實(shí)例
這篇文章主要給大家介紹了關(guān)于OpenCV實(shí)現(xiàn)機(jī)器人對(duì)物體進(jìn)行移動(dòng)跟隨的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-11-11Python量化因子測(cè)算與繪圖超詳細(xì)流程代碼
這篇文章主要介紹了Python量化因子測(cè)算與繪圖,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧2023-02-02解決import tensorflow as tf 出錯(cuò)的原因
這篇文章主要介紹了解決import tensorflow as tf 出錯(cuò)的原因,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-04-04python生成多個(gè)只含0,1元素的隨機(jī)數(shù)組或列表的實(shí)例
今天小編就為大家分享一篇python生成多個(gè)只含0,1元素的隨機(jī)數(shù)組或列表的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-11-11Python函數(shù)式編程指南(一):函數(shù)式編程概述
這篇文章主要介紹了Python函數(shù)式編程指南(一):函數(shù)式編程概述,本文講解了什么是函數(shù)式編程概述、什么是函數(shù)式編程、為什么使用函數(shù)式編程、如何辨認(rèn)函數(shù)式風(fēng)格等核心知識(shí),需要的朋友可以參考下2015-06-06Python實(shí)現(xiàn)掃描指定目錄下的子目錄及文件的方法
這篇文章主要介紹了Python實(shí)現(xiàn)掃描指定目錄下的子目錄及文件的方法,需要的朋友可以參考下2014-07-07