基于Python獲取docx/doc文件內(nèi)容代碼解析
這篇文章主要介紹了基于Python獲取docx/doc文件內(nèi)容代碼解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
整體思路:
下載文件并修改后綴為zip文件,解壓zip文件,所要獲取的內(nèi)容在固定的文件夾下:work/temp/word/document.xml
所用包,全部是python自帶,不需要額外下載安裝.
# encoding:utf-8 import os import re import requests import zipfile import xml.dom.minidom newfile = 'test.docx' def create(newfile): """下載docx文件,并修改后綴為zip""" res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949') if not os.path.exists(newfile): f = open(newfile, 'wb') for chunk in res.iter_content(100000): f.write(chunk) f.close() os.rename(newfile, 'test.zip') 這種方法發(fā)現(xiàn)只能解決一部分doc文件,具體原因不得而知,有明白的歡迎留言 # 將doc/docx文件壓縮成zip文件 #pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED) #pf.write(newfile) def get_txt(): """解壓zip,并在work/temp/word/document.xml獲取文本內(nèi)容,進(jìn)行正則替換標(biāo)簽等操作""" f = zipfile.ZipFile('test.zip', 'r') for file in f.namelist(): f.extract(file, "temp/") f = xml.dom.minidom.parse('./temp/word/document.xml') txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml()) print re.sub(r'<.*?>', '', txt) if __name__ == '__main__': create(newfile) get_txt()
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
深入理解python對(duì)json的操作總結(jié)
Json最廣泛的應(yīng)用是作為AJAX中web服務(wù)器和客戶端的通訊的數(shù)據(jù)格式,本篇文章主要介紹了python對(duì)json的操作總結(jié),具有一定的參考價(jià)值,有興趣的可以了解一下。2017-01-01Django全局啟用登陸驗(yàn)證login_required的方法
這篇文章主要介紹了Django全局啟用登陸驗(yàn)證login_required的方法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-06-06Python使用pymssql連接SQL?SEVER數(shù)據(jù)庫(kù)全流程
SQL Server是微軟推出的重量級(jí)的數(shù)據(jù)庫(kù),目前有多個(gè)版本,如2000、2008、2012等,下面這篇文章主要給大家介紹了關(guān)于Python使用pymssql連接SQL?SEVER數(shù)據(jù)庫(kù)的相關(guān)資料,需要的朋友可以參考下2023-12-12Python命令行參數(shù)解析模塊getopt使用實(shí)例
這篇文章主要介紹了Python命令行參數(shù)解析模塊getopt使用實(shí)例,本文講解了使用語(yǔ)法格式、短選項(xiàng)參數(shù)實(shí)例、長(zhǎng)選項(xiàng)參數(shù)實(shí)例等內(nèi)容,需要的朋友可以參考下2015-04-04Python 從一個(gè)文件中調(diào)用另一個(gè)文件的類方法
今天小編就為大家分享一篇Python 從一個(gè)文件中調(diào)用另一個(gè)文件的類方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-01-01Python小紅書旋轉(zhuǎn)驗(yàn)證碼識(shí)別實(shí)戰(zhàn)教程
這篇文章主要介紹了Python小紅書旋轉(zhuǎn)驗(yàn)證碼識(shí)別實(shí)戰(zhàn)教程,本文通過示例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧2023-08-08python隨機(jī)生成指定長(zhǎng)度密碼的方法
這篇文章主要介紹了python隨機(jī)生成指定長(zhǎng)度密碼的方法,涉及Python操作字符串的技巧,非常具有實(shí)用價(jià)值,需要的朋友可以參考下2015-04-04