Document：是一個(gè) Word 文檔對(duì)象，不同于 VBA 中 Worksheet 的概念，Document 是獨(dú)立的，打開(kāi)不同的 Word 文檔，就會(huì)有不同的 Document 對(duì)象，相互之間沒(méi)有影響
Paragraph：是段落，一個(gè) Word 文檔由多個(gè)段落組成，當(dāng)在文檔中輸入一個(gè)回車(chē)鍵，就會(huì)成為新的段落，輸入 shift + 回車(chē)，不會(huì)分段
Run 表示一個(gè)節(jié)段，每個(gè)段落由多個(gè) 節(jié)段組成，一個(gè)段落中具有相同樣式的連續(xù)文本，組成一個(gè)節(jié)段，所以一個(gè) 段落對(duì)象有個(gè) Run 列表。

例如下圖的 word 文檔示意圖：

word 文檔結(jié)構(gòu)劃分如下：

python-docx 安裝

安裝：

pip install python-docx 如果安裝速度太慢的話，可以換一個(gè)國(guó)內(nèi)的源地址（如下）

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx

導(dǎo)入：

import docx
from docx import …

python-docx 之 Document

導(dǎo)入包與模塊：

from docx import Document

使用方法：

Document(word文件地址)

返回值：

word文件對(duì)象

python-docx 之段落內(nèi)容讀取

實(shí)際上要想讀取一個(gè) word 文檔，主要就是讀取它的段落以及它的表格。無(wú)論是段落還是表格，它的內(nèi)部都是字符串，我們的目的就是讀取這些字符串的內(nèi)容。

先看一下段落內(nèi)容的讀取方式：

來(lái)源：

document_obj.paragraphs 通過(guò) document 對(duì)象的 paragraphs 函數(shù)返回一個(gè)段落的列表；如果 word 文件存在多個(gè)段落，就會(huì)有多個(gè)段落對(duì)象。

使用方法：

通過(guò)循環(huán)獲取每個(gè)段落對(duì)象，并調(diào)用 text

演示案例腳本如下：

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為：", path)     # 調(diào)試路徑

doc = Document(path)

for p in doc.paragraphs:
    print(p.text)

運(yùn)行結(jié)果如下：（PS：文本只是演示，本人非培訓(xùn)機(jī)構(gòu)的?。?/p>

python-docx 之表格內(nèi)容讀取

接下來(lái)我們看一下如何讀取 word 文件中的表格內(nèi)容：

來(lái)源：

document_obj.tables 通過(guò) document 對(duì)象的 paragraphs 函數(shù)返回一個(gè)表格的列表；里面是一個(gè)一個(gè)的表格的對(duì)象。

使用方法：

同樣通過(guò)循環(huán)，獲取行與列的內(nèi)容

返回值：

每個(gè)表格字段（字符串）

演示案例代碼如下：

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為：", path)     # 調(diào)試路徑

doc = Document(path)

# for p in doc.paragraphs:
#     print(p.text)

for t in doc.tables:            # for 循環(huán)獲取表格對(duì)象
    for row in t.rows:          # 獲取每一行
        row_str = []
        for cell in row.cells:    # 獲取每一行單獨(dú)的小表格,然后將其內(nèi)容拼接起來(lái);拼接完成之后再第二個(gè)for循環(huán)中打印出來(lái)
            row_str.append(cell.text)
        print(row_str)
        
# 也可以通過(guò) "columns" 獲取表格中的列的內(nèi)容，可以自己嘗試一下

運(yùn)行結(jié)果如下：