Python?讀取?Word?文檔操作
前言
Word
文檔 (.docx
) 是另一種主要用于存儲(chǔ)文本的常見(jiàn)文檔。它們通常由 Microsoft Office
創(chuàng)建和編輯,但也可以使用其他工具生成兼容文件。它們通常是共享可編輯文件的最常見(jiàn)格式,同時(shí)在分發(fā)文檔時(shí)也非常常見(jiàn)。
Python 讀取 Word 文檔
安裝 python-docx庫(kù)
在本節(jié)中,我們將學(xué)習(xí)如何使用 Python
從 Word
文檔中提取文本信息。我們主要使用 python-docx
庫(kù)來(lái)讀取和處理 Word
文檔,其安裝方法與其它第三方庫(kù)完全相同:
$ pip install python-docx
首先,導(dǎo)入 python-docx
庫(kù):
>>> import docx
打開(kāi) document_1.docx
文件:
>>> doc = docx.Document('document_1.docx')
檢查存儲(chǔ)在 core_properties
中的元數(shù)據(jù)屬性,需要訪問(wèn) core_properties
屬性。這些屬性是為 Word
定義的文檔元數(shù)據(jù)屬性,例如作者或創(chuàng)建日期。但并非所有文檔都具有這些元數(shù)據(jù)信息,因?yàn)樵S多生成 Word
文檔的工具不一定會(huì)填充這些屬性:
>>> doc.core_properties.title 'Research Overview of Adversarial Attacks and Defenses on Graphs' >>> doc.core_properties.keywords 'Abstract' >>> doc.core_properties.modified datetime.datetime(2020, 8, 1, 3, 11)
Word
文檔中最重要的特點(diǎn)是數(shù)據(jù)以段落(而不是頁(yè))的形式結(jié)構(gòu)化。字體大小、段落縮進(jìn)和其他因素都可能會(huì)使頁(yè)數(shù)發(fā)生變化。檢查段落數(shù):
>>> len(doc.paragraphs) 28
瀏覽段落以檢測(cè)包含文本的段落,大多數(shù)段落通常是空的,或者只包含換行符、制表符或其他空白字符,檢查段落時(shí)我們通常跳過(guò)這些空段落:
>>> for index, paragraph in enumerate(doc.paragraphs): ... ????if paragraph.text: ... ????????????print(index, paragraph.text)= ... 0 圖對(duì)抗攻防綜述 1 摘 要: 3 關(guān)鍵字: 5 Research Overview of Adversarial Attacks and Defenses on Graphs 6 Abstract 7 Deep neural networks (DNNs) have been widely applied to various applications, including image classification, ... 8 ... ... 27 參考文獻(xiàn)
可以利用 paragraphs
屬性獲取文檔段落列表并提取原始格式的文本,這些文本不包括樣式信息,通常是自動(dòng)處理數(shù)據(jù)時(shí)最常用的屬性。獲取第 5
段和第 6
段的文本,分別對(duì)應(yīng)第一頁(yè)的標(biāo)題和副標(biāo)題:
>>> doc.paragraphs[5].text 'Research Overview of Adversarial Attacks and Defenses on Graphs' >>> doc.paragraphs[6].text 'Abstract '
每個(gè)段落都有一個(gè) runs
屬性,這是具有不同樣式屬性的文本分割列表。檢查不同文本段落是否為粗體或斜體:
>>> doc.paragraphs[5].runs[0].bold True >>> doc.paragraphs[5].runs[0].italic >>> doc.paragraphs[6].runs[0].bold >>> doc.paragraphs[6].runs[0].italic True
在示例 Word
文檔中,大多數(shù)段落只有一個(gè) run
(即每個(gè)段落使用相同的樣式),但我們?cè)诘?nbsp;7
段中文本具有許多不同的樣式。例如,Deep neural networks
使用粗體樣式,DNNs
使用斜體樣式:
>>> run_0 = doc.paragraphs[7].runs[0] >>> run_0.text 'Deep neural networks' >>> run_0.bold True >>> run_13 = doc.paragraphs[7].runs[13] >>> run_13.text 'DNNs' >>> run_13.italic True
到此這篇關(guān)于Python 讀取 Word 文檔操作的文章就介紹到這了,更多相關(guān)Python 讀取 Word 文檔內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python監(jiān)測(cè)當(dāng)前聯(lián)網(wǎng)狀態(tài)并連接的實(shí)例
今天小編就為大家分享一篇python監(jiān)測(cè)當(dāng)前聯(lián)網(wǎng)狀態(tài)并連接的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12Python使用Slider組件實(shí)現(xiàn)調(diào)整曲線參數(shù)功能示例
這篇文章主要介紹了Python使用Slider組件實(shí)現(xiàn)調(diào)整曲線參數(shù)功能,結(jié)合實(shí)例形式分析了Python使用matplotlib與Slider組件進(jìn)行圖形繪制相關(guān)操作技巧,需要的朋友可以參考下2019-09-09python 6.7 編寫(xiě)printTable()函數(shù)表格打印(完整代碼)
這篇文章主要介紹了python 6.7 編寫(xiě)一個(gè)名為printTable()的函數(shù) 表格打印,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-03-03python學(xué)習(xí)將數(shù)據(jù)寫(xiě)入文件并保存方法
在本篇文章里小編給大家分享的是關(guān)于python將數(shù)據(jù)寫(xiě)入文件并保存的實(shí)例內(nèi)容,需要的朋友們可以學(xué)習(xí)下。2020-06-06pandas快速處理Excel,替換Nan,轉(zhuǎn)字典的操作
這篇文章主要介紹了pandas快速處理Excel,替換Nan,轉(zhuǎn)字典的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-03-03