divs = response.xpath("body//div")
sel = None
maxvalue = 0
for d in divs:
  ds = len(d.xpath(".//div"))
  ps = len(d.xpath(".//p"))
  value = ps - ds
  if value > maxvalue:
    sel = {
      "node": d,
      "value": value
    }
    maxvalue = value 
print("".join(sel['node'].getall()))

response 是頁面的一個(gè)響應(yīng)，其中包含了頁面的所有內(nèi)容，可以通過 xpath 提取想要的部分
"body//div" 的意思是提取所以 body 標(biāo)簽下的 div 子標(biāo)簽，注意：// 操作是遞歸的
遍歷所有提取到的標(biāo)簽，計(jì)算其中包含的 div 數(shù)量，和 p 數(shù)量
p 數(shù)量和 div 數(shù)量的差值作為這個(gè)元素的權(quán)值，意思是如果這個(gè)元素里包含了大量的 p 時(shí)，就認(rèn)為這里是文章主體
通過比較權(quán)值，選擇出權(quán)值最大的元素，這便是文章主體
得到文章主體之后，提取這個(gè)元素的內(nèi)容，相當(dāng)于 jQuery[5] 的 outerHtml

簡單明了，測(cè)試了幾個(gè)頁面確實(shí)挺好。

不過大量提取時(shí)發(fā)現(xiàn)，很多頁面提取不到數(shù)據(jù)。仔細(xì)查看發(fā)現(xiàn)，有兩種情況。

有的文章內(nèi)容被放在了 <article> 標(biāo)簽里了，所以沒有獲取到
有的文章每個(gè) <p> 外面都包裹了一個(gè) <div>，所以 p 的數(shù)量和 div 的抵消了

再調(diào)整了一下策略，不再區(qū)分 div，查看所有的元素。

另外優(yōu)先選擇更多的 p，在其基礎(chǔ)上再看更少的 div。調(diào)整后的代碼如下：

divs = response.xpath("body//*")
sels = []
maxvalue = 0
for d in divs:
  ds = len(d.xpath(".//div"))
  ps = len(d.xpath(".//p"))
  if ps >= maxvalue:
    sel = {
      "node": d,
      "ps": ps,
      "ds": ds
    }
    maxvalue = ps
    sels.append(sel)
 
sels.sort(lambda x: x.ds)
 
sel = sels[0]
 
print("".join(sel['node'].getall()))

方法主體里，先挑選出 p 數(shù)量比較大的節(jié)點(diǎn)，注意 if 判斷條件中換成了 >= 號(hào)，作用時(shí)篩選出同樣具有 p 數(shù)量的結(jié)點(diǎn)
經(jīng)過篩選之后，按照 div 數(shù)量排序，然后選取 div 數(shù)量最少的

經(jīng)過這樣修改之后，確實(shí)在一定程度上彌補(bǔ)了前面的問題，但是引入了一個(gè)更麻煩的問題。

就是找到的文章主體不穩(wěn)定，特別容易受到其他部分有些 p 的影響。

選擇最優(yōu)

既然直接計(jì)算不太合適，需要重新設(shè)計(jì)一個(gè)算法。

我發(fā)現(xiàn)，文字集中的地方是往往是文章主體，而前面的方法中，沒有考慮到這一點(diǎn)，只是機(jī)械地找出了最大的 p。

還有一點(diǎn)，網(wǎng)頁結(jié)構(gòu)是個(gè)顆 DOM 樹[6]

那么越靠近 p 標(biāo)簽的地方應(yīng)該越可能是文章主體，也就是說，計(jì)算是越靠近 p 的節(jié)點(diǎn)權(quán)值應(yīng)該越大，而遠(yuǎn)離 p 的結(jié)點(diǎn)及時(shí)擁有很多 p 但是權(quán)值也應(yīng)該小一點(diǎn)。

經(jīng)過試錯(cuò)，最終代碼如下：

def find(node, sel):
    value = 0
    for n in node.xpath("*"):
        if n.xpath("local-name()").get() == "p":
            t = "".join([s.strip() for s in (n.xpath('text()').getall() + n.xpath("*/text()").getall())])
            value += len(t)
        else:
            value += find(n, a)*0.5
    if value > sel["value"]:
        sel["node"] = node
        sel["value"] = value
    return value
 
sel = {
    'value': 0,
    'node': None
}
find(response.xpath("body"), sel)

定義了一個(gè) find 函數(shù)，這是為了方便做遞歸，第一次調(diào)用的參數(shù)是 body 標(biāo)簽，和前面一樣
進(jìn)入方法里，只找出該節(jié)點(diǎn)的直接孩子們，然后遍歷這些孩子
判斷如果孩子是 p 節(jié)點(diǎn)，提取出其中的所有文字，包括子節(jié)點(diǎn)的，然后將文字的長度作為權(quán)值
提取文字的地方比較繞，先取出直接的文本，和間接文本，合成 list，對(duì)每部分文本做了去除前后空字符，最后合并為一個(gè)字符串，得到了所包含的文本
如果孩子節(jié)點(diǎn)不是 p，就遞歸調(diào)用 find 方法，而 find 方法返回的是指定節(jié)點(diǎn)所包含的文本長度
在獲取子節(jié)點(diǎn)的長度時(shí)，做了縮減處理，用以體現(xiàn)距離越遠(yuǎn)，權(quán)值越低的規(guī)則
最終通過引用傳遞的 sel 參數(shù)，記錄權(quán)值最高的節(jié)點(diǎn)