Python自動化辦公之Word文件內容的讀取
前言
前面幾個章節(jié)我們學習了對于普通文件的操作,比如說文件的創(chuàng)建、復制粘貼、裁剪粘貼、文件名的重命名、刪除等等。另外還學習了一些基本練習,如何查找文件、如何按照內容查找文件等等。
在本章節(jié)及后續(xù),將開始學習一些特殊文件的自動化相關操作。如 word、excel、PPT,雖然說是特殊文件,其實也是實際工作中我們經常會用到的文件類型。
接下來我們就進入到 word 文件自動化操作的學習內容。
該章節(jié)涉及的新模塊
python-docx
pdfkit
pydocx
利用 python 批量讀取文件
word利器之python-docx
python-docx 是用于創(chuàng)建可修改 微軟 Word 的一個 python 庫,提供全套的 Word 操作,是最常用的 Word 工具。
使用前,先了解幾個概念:
- Document:是一個 Word 文檔 對象,不同于 VBA 中 Worksheet 的概念,Document 是獨立的,打開不同的 Word 文檔,就會有不同的 Document 對象,相互之間沒有影響
- Paragraph:是段落,一個 Word 文檔由多個段落組成,當在文檔中輸入一個回車鍵,就會成為新的段落,輸入 shift + 回車,不會分段
- Run 表示一個節(jié)段,每個段落由多個 節(jié)段 組成,一個段落中具有相同樣式的連續(xù)文本,組成一個節(jié)段,所以一個 段落 對象有個 Run 列表。
例如下圖的 word 文檔示意圖:
word 文檔結構劃分如下:
python-docx 安裝
安裝:
pip install python-docx 如果安裝速度太慢的話,可以換一個國內的源地址(如下)
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx
導入:
import docx
from docx import …
python-docx 之 Document
導入包與模塊:
from docx import Document
使用方法:
Document(word文件地址)
返回值:
word文件對象
python-docx 之段落內容讀取
實際上要想讀取一個 word 文檔,主要就是讀取它的段落以及它的表格。無論是段落還是表格,它的內部都是字符串,我們的目的就是讀取這些字符串的內容。
先看一下段落內容的讀取方式:
來源:
document_obj.paragraphs 通過 document 對象的 paragraphs 函數(shù)返回一個段落的列表;如果 word 文件存在多個段落,就會有多個段落對象。
使用方法:
通過循環(huán)獲取每個段落對象,并調用 text
演示案例腳本如下:
# coding:utf-8 import os from docx import Document path = os.path.join(os.getcwd(), 'test_file/文本.docx') print("\'文本.docx\' 的路徑為:", path) # 調試路徑 doc = Document(path) for p in doc.paragraphs: print(p.text)
運行結果如下:(PS:文本只是演示,本人非培訓機構的?。?/p>
python-docx 之表格內容讀取
接下來我們看一下如何讀取 word 文件中的表格內容:
來源:
document_obj.tables 通過 document 對象的 paragraphs 函數(shù)返回一個表格的列表;里面是一個一個的表格的對象。
使用方法:
同樣通過循環(huán),獲取行與列的內容
返回值:
每個表格字段(字符串)
演示案例代碼如下:
# coding:utf-8 import os from docx import Document path = os.path.join(os.getcwd(), 'test_file/文本.docx') print("\'文本.docx\' 的路徑為:", path) # 調試路徑 doc = Document(path) # for p in doc.paragraphs: # print(p.text) for t in doc.tables: # for 循環(huán)獲取表格對象 for row in t.rows: # 獲取每一行 row_str = [] for cell in row.cells: # 獲取每一行單獨的小表格,然后將其內容拼接起來;拼接完成之后再第二個for循環(huán)中打印出來 row_str.append(cell.text) print(row_str) # 也可以通過 "columns" 獲取表格中的列的內容,可以自己嘗試一下
運行結果如下:
到此這篇關于Python自動化辦公之Word文件內容的讀取的文章就介紹到這了,更多相關Python讀取Word內容內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python Matplotlib條形圖之垂直條形圖和水平條形圖詳解
這篇文章主要為大家詳細介紹了Python Matplotlib條形圖之垂直條形圖和水平條形圖,使用數(shù)據(jù)庫,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2022-03-03pyinstaller打包單個exe后無法執(zhí)行錯誤的解決方法
今天小編就為大家分享一篇pyinstaller打包單個exe后無法執(zhí)行錯誤的解決方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06python編程開發(fā)之類型轉換convert實例分析
這篇文章主要介紹了python編程開發(fā)之類型轉換convert用法,結合實例形式分析了Python中常見的數(shù)據(jù)類型及類型轉換convert的具體使用方法,需要的朋友可以參考下2015-11-11