python使用python-docx處理word的方法示例
一、python-docx簡介
python自動化操作Word最常用的模塊就是python-docx。
python-docx模塊處理word文檔,處理方式是面向?qū)ο蟮?。也就是說python-docx模塊會把word文檔,文檔中的段落、文本、字體等都看做對象,對對象進行處理就是對word文檔的內(nèi)容處理。
如果需要讀取word文檔中的文字(一般來說,程序也只需要認識word文檔中的文字信息),需要先了解python-docx模塊的幾個概念。
Word文檔一般可以結(jié)構(gòu)化成三個部分:
- Document,表示一個word文檔
- Paragraph,表示word文檔中的一個段落
- Run,表示段落中的文字塊
Document - Paragraph - Run
三級結(jié)構(gòu),這是最普遍的情況。但是如果Word中存在表格,這時會有新的文檔結(jié)構(gòu),如下:
這時的結(jié)構(gòu)非常類似Excel, 可以看成Document-Table-Row/Column-Cells
四級結(jié)構(gòu)。
# 安裝 pip install python-docx
二、基本使用
1、新建與保存word
from docx import Document document = Document() #創(chuàng)建一個空文檔 document.save(r'D:\自動化\word\道德經(jīng).docx') # 保存文件
2、寫入Word
from docx import Document # 導入docx庫 from docx.shared import Inches, Cm # 導入英寸單位 厘米Cm (可用于指定圖片大小、表格寬高等) # 打開一個document file_path = r'D:\自動化\word\道德經(jīng).docx' document = Document(file_path) # 設(shè)置標題段落 document.add_heading('道德經(jīng)', 0) # 添加段落 p = document.add_paragraph('道可道,非常道;名可名,非常名。') p.add_run('無名,天地之始,').bold = True # 在指定段落后添加粗體文字 p.add_run('有名,') # 在指定段落后添加默認格式文字 p.add_run('萬物之母。').italic = True # 在指定段落后添加斜體文字 # 添加1級標題=標題1 document.add_heading('故常無欲,', level=1) # 添加指定格式段落 style后面則是樣式 document.add_paragraph('以觀其妙,', style='Intense Quote') # 添加段落,樣式為List Bullet類型 document.add_paragraph('常有欲,以觀其徼。', style='List Bullet') # 添加段落,樣式為List Number類型 document.add_paragraph('此兩者,同出而異名,同謂之玄,玄之又玄,眾妙之門。', style='ListNumber') document.add_paragraph('所以說,霸夫老師教Python,教得妙。', style='List Number') # 添加圖片 img_path = r'D:\自動化\word\girl.png' document.add_picture(img_path) document.add_picture(img_path, width=Inches(1.25)) document.add_picture(img_path, width=Cm(5), height=Cm(5)) # 待添加到表格的內(nèi)容 records = ( (1, '李白', '詩仙'), (2, '杜甫', '詩圣'), (3, '白居易', '香山居士, 與元稹并稱元白, 與劉禹錫合稱劉白') ) # 添加一個1行3列的表格, 表格樣式為Table Grid # 表格樣式參數(shù)可選,缺省時為Normal Table # Normal Table # Table Grid # Light Shading、 Light Shading Accent 1 至 Light Shading Accent 6 # Light List、Light List Accent 1 至 Light List Accent 6 # Light Grid、Light Grid Accent 1 至 Light Grid Accent 6 # 太多了其它省略... table = document.add_table(rows=1, cols=3, style='Table Grid') # 填充標題行 hdr_cells = table.rows[0].cells hdr_cells[0].text = '序號' hdr_cells[1].text = '姓名' hdr_cells[2].text = '描述' # 動態(tài)添加數(shù)據(jù)行 for id, name, desc in records: row_cells = table.add_row().cells row_cells[0].text = str(id) row_cells[1].text = name row_cells[2].text = desc document.add_paragraph('再添加一個表格') # 待添加到表格的內(nèi)容 records2 = [ ["姓名", "性別", "家庭地址"], ["貂蟬", "女", "河北省"], ["楊貴妃", "女", "貴州省"], ["西施", "女", "山東省"] ] # 添加一個4行3列的表格 table2 = document.add_table(rows=4, cols=3, style='Light List Accent 5') # 填充表格 for 行索引 in range(4): cells = table2.rows[行索引].cells for 列索引 in range(3): cells[列索引].text = str(records2[行索引][列索引]) # 添加分頁符 document.add_page_break() # 保存文檔 document.save(file_path)
(1)打開文檔
Document()傳入?yún)?shù)是打開相應(yīng)的文檔,不傳參數(shù)則是創(chuàng)建一個空文檔。
# 創(chuàng)建一個空文檔 document = Document() # 加載舊文檔(用于修改或添加內(nèi)容) document = Document('exist.docx')
(2)添加標題
level等級1-9 也就是標題1-標題9,我們可以在舊文檔中將標題格式設(shè)置好,使用Python-docx打開舊文檔,再添加相應(yīng)等級標題即可。
document.add_heading('一級標題', level=1)
(3)添加段落
段落在 Word 中是基本內(nèi)容。它們用于正文文本,也用于標題和項目列表(如項目符號)。
添加段落的時候,賦值給一個變量,方便我們后面進行格式調(diào)整。
p = document.add_paragraph('道可道,非常道;名可名,非常名。') # 添加指定格式段落 style后面則是樣式 document.add_paragraph('以觀其妙,', style='Intense Quote')
(4)添加文字塊
在指定段落上添加文字塊。
p.add_run('無名,天地之始,').bold = True # 在指定段落后添加粗體文字 p.add_run('有名,') # 在指定段落后添加默認格式文字 p.add_run('萬物之母。').italic = True # 在指定段落后添加斜體文字
(5)添加圖片
width, height可用于設(shè)置圖片尺寸,缺省時為圖片默認大小。
document.add_picture('girl.png') document.add_picture('girl.png', width=Inches(1.25)) document.add_picture('girl.png', width=Cm(5), height=Cm(5))
(6)添加表格
表格樣式style參數(shù)可選,缺省時默認為Normal Table。
常用樣式有:
Normal Table
Table Grid
Light Shading、 Light Shading Accent 1 至 Light Shading Accent 6
Light List、Light List Accent 1 至 Light List Accent 6
Light Grid、Light Grid Accent 1 至 Light Grid Accent 6
# 添加一個4行3列的表格 table = document.add_table(rows=4, cols=3) table = document.add_table(rows=4, cols=3, style='Light Shading Accent 2')
(7)添加分頁符
# 添加分頁符 document.add_page_break()
3、讀取word
''' 文檔.paragraphs可以獲取文檔中所有段落數(shù)據(jù),不包含表格,這里注意一點圖片跟分頁符也會計算在段落數(shù)據(jù)內(nèi) 段落.runs 可以獲取段落的所有文字塊 文檔.tables可以獲取文檔中所有表格數(shù)據(jù) 文檔.save (path) 可以用于保存修改后的文檔本身,同樣也可在將打開的文檔另存為新文檔 ''' from docx import Document doc = Document(r'D:\自動化\word\道德經(jīng).docx') # 讀取 word 中所有內(nèi)容 for p in doc.paragraphs: print(p, p.text) # 讀取指定段落中的所有run for run in doc.paragraphs[1].runs: print(run, run.text) # 讀取 word中所有表格內(nèi)容 for 表格 in doc.tables: print(表格) for 行 in 表格.rows: for 單元格 in 行.cells: print(單元格.text) doc.save(r'D:\自動化\word\另存為新文檔.docx')
到此這篇關(guān)于python使用python-docx處理word的方法示例的文章就介紹到這了,更多相關(guān)python-docx處理word內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
詳解Python Matplotlib解決繪圖X軸值不按數(shù)組排序問題
這篇文章主要介紹了詳解Python Matplotlib解決繪圖X軸值不按數(shù)組排序問題,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-08-08動態(tài)規(guī)劃之矩陣連乘問題Python實現(xiàn)方法
這篇文章主要介紹了動態(tài)規(guī)劃之矩陣連乘問題Python實現(xiàn)方法,較為詳細的分析了矩陣連乘問題的概念、原理并結(jié)合實例形式分析了Python相關(guān)實現(xiàn)技巧,需要的朋友可以參考下2017-11-11Python?pandas刪除指定行/列數(shù)據(jù)的方法實例
這篇文章主要給大家介紹了關(guān)于Python?pandas刪除指定行/列數(shù)據(jù)的相關(guān)資料,文中通過實例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2022-01-01