欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲框架NewSpaper使用詳解

 更新時間:2022年08月29日 11:16:19   作者:夢想橡皮擦  
這篇文章主要為大家介紹了Python爬蟲框架NewSpaper使用詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪

寫在前面

原計劃繼續(xù)寫一篇Portia的使用博客,結(jié)果在編寫代碼途中發(fā)現(xiàn),在windows7的DockerToolbox里面使用Portia錯誤實在是太多了,建議大家還是在Linux虛擬機或者直接在服務(wù)器上去運行。否則太耗費精力了~

今天我們轉(zhuǎn)移一下,介紹一款newspaper

newspaper

github地址 : github.com/codelucas/n…

看名字應(yīng)該能猜到和報紙/新聞有關(guān)系,這個庫主要用于文章爬取和整理,國內(nèi)的一個大佬做的,當然他的github上也貼上了其他開發(fā)者的推薦

例如requests庫的作者在推特上的推薦語

"Newspaper is an amazing python library for extracting & curating articles."

The Changelog專門寫了一篇評價文章,也可以圍觀一下

Newspaper delivers Instapaper style article extraction.

對于這樣一款走出國門的爬蟲庫,我們還是很有必要介紹一下的

安裝非常簡單

pip install newspaper3k -i pypi.tuna.tsinghua.edu.cn/simple

官方文檔可以查閱:newspaper.readthedocs.io/en/latest/u…

newspaper框架的使用

對于這款框架,使用起來難度是非常低的。簡單對照這一頁文檔即可應(yīng)用起來

例如:單條新聞內(nèi)容獲取

第一種應(yīng)用方式,直接獲取網(wǎng)頁內(nèi)容

from newspaper import Article
url = "https://36kr.com/p/857678806293124"
article = Article(url) # 創(chuàng)建文章對象
article.download()        # 加載網(wǎng)頁
article.parse()           # 解析網(wǎng)頁
print(article.html) # 打印html文檔

當然還有一些其他屬性,不過該框架都是基于關(guān)鍵字識別的,有一些BUG存在,有時識別不準

# print(article.html) # 打印html文檔
print(article.text) # 新聞?wù)?
print("-"*100)
print(article.title) # 新聞標題
print("-"*100)
print(article.authors)  # 新聞作者
print("-"*100)
print(article.summary)   # 新聞?wù)?
print(article.keywords) # 新聞關(guān)鍵詞
# print(article.top_image) # 本文的top_image的URL
# print(article.images) # 本文中的所有圖像url

newspaper文章緩存

默認情況下,newspaper緩存所有待提取的文章,如果文章被爬取過之后就會清除掉它。此功能用于防止重復(fù)的文章和提高提取速度??梢允褂?code>memoize_articles參數(shù)選擇是否緩存。

但當我使用下面這個辦法進行提取的時候,神奇的BUG出現(xiàn)了,怎么也得不到我想要的文章了。唉~看來框架完善之路還是要繼續(xù)啊

import newspaper
url = "https://news.sina.com.cn/c/2020-08-29/doc-iivhvpwy3651884.shtml"
# article = Article(url) # 創(chuàng)建文章對象
# article.download()        # 加載網(wǎng)頁
# article.parse()           # 解析網(wǎng)頁
news = newspaper.build(url, language='zh', memoize_articles=False)
article = news.articles[0]
article.download()
article.parse()
print('title=',article.title)

其他功能

在應(yīng)用的過程中發(fā)現(xiàn)確實解析存在很大的問題,不過整體的框架設(shè)計思路還是非常棒的。有點高開低走 ,看到github上的評語其實對newspaper是非常有期待的,使用之后,我建議還是使用requests然后加上bs4自己搞搞更加合理。

除了上面簡單介紹到的功能,它還有一些擴展,例如下面這些

  • requestsnewspaper合體解析網(wǎng)頁正文,也就是用requests爬取,newspaper充當解析器
  • 可以調(diào)用Google Trends信息
  • 支持多任務(wù)爬取
  • 支持NPL自然語言處理
  • 甚至官方文檔還給了一個Easter Eggs復(fù)活節(jié)彩蛋~,可以拉倒文檔最下面查閱

唉~總之一言難盡啊

寫在后面

本打算 Python 玩轉(zhuǎn)NewSpaper爬蟲框架,看來是玩不轉(zhuǎn)了,擴展一下知識點也是極好的,當然github下載源碼之后,好好研究一下大佬的編碼規(guī)范,能學(xué)到很多。

以上就是Python爬蟲框架NewSpaper使用詳解的詳細內(nèi)容,更多關(guān)于Python爬蟲框架NewSpaper的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Django 簡單實現(xiàn)分頁與搜索功能的示例代碼

    Django 簡單實現(xiàn)分頁與搜索功能的示例代碼

    這篇文章主要介紹了Django 簡單實現(xiàn)分頁與搜索功能的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-11-11
  • Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例

    Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例

    今天給大家?guī)淼氖顷P(guān)于Python爬蟲的相關(guān)知識,文章圍繞著Python scrapy展開,文中有非常詳細的介紹及代碼示例,需要的朋友可以參考下
    2021-06-06
  • python中multiprosessing模塊的Pool類中的apply函數(shù)和apply_async函數(shù)的區(qū)別

    python中multiprosessing模塊的Pool類中的apply函數(shù)和apply_async函數(shù)的區(qū)別

    這篇文章主要介紹了python中multiprosessing模塊的Pool類中的apply函數(shù)和apply_async函數(shù)的區(qū)別、文章圍繞主題的相關(guān)內(nèi)容展開詳細介紹,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-06-06
  • Pycharm學(xué)習(xí)教程(5) Python快捷鍵相關(guān)設(shè)置

    Pycharm學(xué)習(xí)教程(5) Python快捷鍵相關(guān)設(shè)置

    這篇文章主要為大家詳細介紹了最全的Pycharm學(xué)習(xí)教程第五篇,Python快捷鍵相關(guān)設(shè)置,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2017-05-05
  • Python 一篇文章看懂時間日期對象

    Python 一篇文章看懂時間日期對象

    學(xué)習(xí)每一門語言多多少少會用到與時間相關(guān)的東西,咱們今天呢就談一談Python中的時間與日期對象。在Python中時間對象一般可以用來測量效率。日期對象用來處理日期與字符串之間的關(guān)系
    2022-03-03
  • Python開多次方根的案例

    Python開多次方根的案例

    這篇文章主要介紹了Python開多次方根的案例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • wxPython中l(wèi)istbox用法實例詳解

    wxPython中l(wèi)istbox用法實例詳解

    這篇文章主要介紹了wxPython中l(wèi)istbox用法,以實例形式較為詳細的分析了Python使用wxPython中l(wèi)istbox的相關(guān)技巧,需要的朋友可以參考下
    2015-06-06
  • 基于Python+Tkinter實現(xiàn)一個簡易計算器

    基于Python+Tkinter實現(xiàn)一個簡易計算器

    Tkinter作為Python的標準庫,是非常流行的Python GUI工具,同時也是非常容易學(xué)習(xí)的。本文將利用Tkinter繪制一個簡單的計算器,感興趣的可以試一試
    2022-01-01
  • Python urllib3軟件包的使用說明

    Python urllib3軟件包的使用說明

    這篇文章主要介紹了Python urllib3軟件包的使用說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-11-11
  • 使用tensorflow實現(xiàn)線性svm

    使用tensorflow實現(xiàn)線性svm

    這篇文章主要為大家詳細介紹了使用tensorflow實現(xiàn)線性svm的相關(guān)資料,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-09-09

最新評論