urllib和BeautifulSoup爬取維基百科的詞條簡(jiǎn)單實(shí)例
本文實(shí)例主要實(shí)現(xiàn)的是使用urllib和BeautifulSoup爬取維基百科的詞條,具體如下。
簡(jiǎn)潔代碼:
#引入開發(fā)包 from urllib.request import urlopen from bs4 import BeautifulSoup import re #請(qǐng)求URL并把結(jié)果用UTF-8編碼 resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8") #使用BeautifulSoup去解析 soup=BeautifulSoup(resp,"html.parser") #print(soup) #獲取所有以/wiki/開頭的a標(biāo)簽的href屬性 listUrl=soup.findAll("a",href=re.compile("^/wiki/")) #輸出所有詞條對(duì)應(yīng)的名稱和URL for link in listUrl: if not re.search("\.(jpg|JPG)$",link["href"]): print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])
運(yùn)行結(jié)果:
總結(jié)
總的來說,Python是簡(jiǎn)潔而又強(qiáng)大的,調(diào)用幾個(gè)庫(kù),就能實(shí)現(xiàn)其他語言一大堆代碼才能實(shí)現(xiàn)的功能。
以上就是本文關(guān)于urllib和BeautifulSoup爬取維基百科的詞條簡(jiǎn)單實(shí)例的全部?jī)?nèi)容,希望對(duì)大家有所幫助。感興趣的朋友可以繼續(xù)參閱本站其他相關(guān)專題,如有不足之處,歡迎留言指出。感謝朋友們對(duì)本站的支持!
- Python爬蟲中urllib庫(kù)的進(jìn)階學(xué)習(xí)
- python 3.6 tkinter+urllib+json實(shí)現(xiàn)火車車次信息查詢功能
- Python2.X/Python3.X中urllib庫(kù)區(qū)別講解
- Python2/3中urllib庫(kù)的一些常見用法
- python爬蟲之BeautifulSoup 使用select方法詳解
- Python利用BeautifulSoup解析Html的方法示例
- python 3利用BeautifulSoup抓取div標(biāo)簽的方法示例
- python爬蟲入門教程--HTML文本的解析庫(kù)BeautifulSoup(四)
相關(guān)文章
Python3如何對(duì)urllib和urllib2進(jìn)行重構(gòu)
這篇文章主要介紹了Python3如何對(duì)urllib和urllib2進(jìn)行重構(gòu),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-11-11詳解model.train()和model.eval()兩種模式的原理與用法
這篇文章主要介紹了詳解model.train()和model.eval()兩種模式的原理與用法,相信很多沒有經(jīng)驗(yàn)的人對(duì)此束手無策,那么看完這篇文章一定會(huì)對(duì)你有所幫助2023-03-03Python報(bào)錯(cuò):對(duì)象不存在此屬性的解決
這篇文章主要介紹了Python報(bào)錯(cuò):對(duì)象不存在此屬性的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-05-05python實(shí)現(xiàn)回旋矩陣方式(旋轉(zhuǎn)矩陣)
今天小編就為大家分享一篇python實(shí)現(xiàn)回旋矩陣方式(旋轉(zhuǎn)矩陣),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-12-12pycharm配置python環(huán)境的詳細(xì)圖文教程
PyCharm是一款功能強(qiáng)大的Python編輯器,具有跨平臺(tái)性,下面這篇文章主要給大家介紹了關(guān)于pycharm配置python環(huán)境的詳細(xì)圖文教程,文中通過圖文介紹的非常詳細(xì),需要的朋友可以參考下2023-01-01