Python爬蟲框架NewSpaper使用詳解

更新時間：2022年08月29日 11:16:19 作者：夢想橡皮擦

這篇文章主要為大家介紹了Python爬蟲框架NewSpaper使用詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪

寫在前面

原計劃繼續(xù)寫一篇Portia的使用博客，結果在編寫代碼途中發(fā)現(xiàn)，在windows7的DockerToolbox里面使用Portia錯誤實在是太多了，建議大家還是在Linux虛擬機或者直接在服務器上去運行。否則太耗費精力了~

今天我們轉移一下，介紹一款newspaper

newspaper

github地址： github.com/codelucas/n…

看名字應該能猜到和報紙/新聞有關系，這個庫主要用于文章爬取和整理，國內的一個大佬做的，當然他的github上也貼上了其他開發(fā)者的推薦

例如requests庫的作者在推特上的推薦語

"Newspaper is an amazing python library for extracting & curating articles."

The Changelog專門寫了一篇評價文章，也可以圍觀一下

Newspaper delivers Instapaper style article extraction.

對于這樣一款走出國門的爬蟲庫，我們還是很有必要介紹一下的

安裝非常簡單

pip install newspaper3k -i pypi.tuna.tsinghua.edu.cn/simple

官方文檔可以查閱：newspaper.readthedocs.io/en/latest/u…

newspaper框架的使用

對于這款框架，使用起來難度是非常低的。簡單對照這一頁文檔即可應用起來

例如：單條新聞內容獲取

第一種應用方式，直接獲取網頁內容

from newspaper import Article
url = "https://36kr.com/p/857678806293124"
article = Article(url) # 創(chuàng)建文章對象
article.download()        # 加載網頁
article.parse()           # 解析網頁
print(article.html) # 打印html文檔

當然還有一些其他屬性，不過該框架都是基于關鍵字識別的，有一些BUG存在，有時識別不準

# print(article.html) # 打印html文檔
print(article.text) # 新聞正文
print("-"*100)
print(article.title) # 新聞標題
print("-"*100)
print(article.authors)  # 新聞作者
print("-"*100)
print(article.summary)   # 新聞摘要
print(article.keywords) # 新聞關鍵詞
# print(article.top_image) # 本文的top_image的URL
# print(article.images) # 本文中的所有圖像url

newspaper文章緩存

默認情況下，newspaper緩存所有待提取的文章，如果文章被爬取過之后就會清除掉它。此功能用于防止重復的文章和提高提取速度?？梢允褂?code>memoize_articles參數選擇是否緩存。

但當我使用下面這個辦法進行提取的時候，神奇的BUG出現(xiàn)了，怎么也得不到我想要的文章了。唉~看來框架完善之路還是要繼續(xù)啊

import newspaper
url = "https://news.sina.com.cn/c/2020-08-29/doc-iivhvpwy3651884.shtml"
# article = Article(url) # 創(chuàng)建文章對象
# article.download()        # 加載網頁
# article.parse()           # 解析網頁
news = newspaper.build(url, language='zh', memoize_articles=False)
article = news.articles[0]
article.download()
article.parse()
print('title=',article.title)