快捷導(dǎo)航

Python讀取word文本操作詳解

更新時(shí)間：2018年01月22日 13:39:56 作者：熊貓大哥大

這篇文章主要介紹了Python讀取word文本操作詳解，介紹了涉及到的模塊，相關(guān)概念，模塊的安裝等內(nèi)容，小編覺(jué)得還是挺不錯(cuò)的，具有一定借鑒價(jià)值，需要的朋友可以參考下

本文研究的主要問(wèn)題時(shí)Python讀取word文本操作，分享了相關(guān)概念和實(shí)現(xiàn)代碼，具體如下。

一，docx模塊

Python可以利用python-docx模塊處理word文檔，處理方式是面向?qū)ο蟮?。也就是說(shuō)python-docx模塊會(huì)把word文檔，文檔中的段落、文本、字體等都看做對(duì)象，對(duì)對(duì)象進(jìn)行處理就是對(duì)word文檔的內(nèi)容處理。

二，相關(guān)概念

如果需要讀取word文檔中的文字（一般來(lái)說(shuō)，程序也只需要認(rèn)識(shí)word文檔中的文字信息），需要先了解python-docx模塊的幾個(gè)概念。

1，Document對(duì)象，表示一個(gè)word文檔。
2，Paragraph對(duì)象，表示word文檔中的一個(gè)段落
3，Paragraph對(duì)象的text屬性，表示段落中的文本內(nèi)容。

三，模塊的安裝和導(dǎo)入

需要注意，python-docx模塊安裝需要在cmd命令行中輸入pip install python-docx，如下圖表示安裝成功（最后那句英文Successfully installed，成功地安裝完成，十分考驗(yàn)英文水平。）

注意在導(dǎo)入模塊時(shí)，用的是import docx。

也真是奇了怪了，怎么安裝和導(dǎo)入模塊時(shí)，很多都不用一個(gè)名字，看來(lái)是很有必要出一個(gè)python版本的模塊管理程序python-maven了，本段純屬PS。

四，讀取word文本

在了解了上面的信息之后，就很簡(jiǎn)單了，下面先創(chuàng)建一個(gè)D:\temp\word.docx文件，并在其中輸入如下內(nèi)容。

然后寫一段程序，代碼及輸出結(jié)果如下：

#讀取docx中的文本代碼示例
import docx
#獲取文檔對(duì)象
file=docx.Document("D:\\temp\\word.docx")
print("段落數(shù):"+str(len(file.paragraphs)))#段落數(shù)為13，每個(gè)回車隔離一段

#輸出每一段的內(nèi)容
for para in file.paragraphs:
 print(para.text)

#輸出段落編號(hào)及段落內(nèi)容
for i in range(len(file.paragraphs)):
 print("第"+str(i)+"段的內(nèi)容是："+file.paragraphs[i].text)

運(yùn)行結(jié)果：

================ RESTART: F:/360data/重要數(shù)據(jù)/桌面/學(xué)習(xí)筆記/readWord.py ================
段落數(shù):13
啊

我看見(jiàn)一座山

雄偉的大山

真高啊

啊

這座山是！

真的很高！
第0段的內(nèi)容是：啊
第1段的內(nèi)容是：
第2段的內(nèi)容是：我看見(jiàn)一座山
第3段的內(nèi)容是：
第4段的內(nèi)容是：雄偉的大山
第5段的內(nèi)容是：
第6段的內(nèi)容是：真高啊
第7段的內(nèi)容是：
第8段的內(nèi)容是：啊
第9段的內(nèi)容是：
第10段的內(nèi)容是：這座山是！
第11段的內(nèi)容是：
第12段的內(nèi)容是：真的很高！
>>>