Python檢測(cè)網(wǎng)站鏈接是否已存在
Python是一種解釋型、面向?qū)ο?、?dòng)態(tài)數(shù)據(jù)類型的高級(jí)程序設(shè)計(jì)語(yǔ)言。
Python由Guido van Rossum于1989年底發(fā)明,第一個(gè)公開(kāi)發(fā)行版發(fā)行于1991年。
像Perl語(yǔ)言一樣, Python 源代碼同樣遵循 GPL(GNU General Public License)協(xié)議。
早就聽(tīng)說(shuō)Python語(yǔ)言操作簡(jiǎn)單,果然名不虛傳,短短幾句,就實(shí)現(xiàn)了基本的功能。
要檢測(cè)目標(biāo)網(wǎng)站上是否存在指定的URL,其實(shí)過(guò)程很簡(jiǎn)單:
1、獲得指定網(wǎng)站網(wǎng)頁(yè)的HTML代碼
2、在HTML代碼中查找指定的URL
3、如果存在,OK;否則,Error
整個(gè)程序引用了兩個(gè)lib庫(kù),urllib2和sgmllib。
urllib2庫(kù)主要定義了一些訪問(wèn)URL(基本通過(guò)HTTP)的函數(shù)與類。
sgmllib庫(kù)主要負(fù)責(zé)解析HTML代碼。
import urllib from sgmllib import SGMLParser class URLLister(SGMLParser): def reset(self): SGMLParser.reset(self) self.urls = [] def start_a(self,attrs): href=[v for k,v in attrs if k=='href'] if href: if (href[].count('http://網(wǎng)站URL')==): self.urls.extend(href) links = ['http://www.google.com/', 'http://www.baidu.com', 'http://www.sohu.net', 'http://www..com', 'http://www.cnblogs.com', 'http://www.qq.com', 'http://www.yahoo.com/', 'http://www.bing.com/', 'http://www..com',] for eachlink in links: f = urllib.urlopen(eachlink) if f.code ==: parser = URLLister() parser.feed(f.read()) f.close() if (len(parser.urls)>=): print 'The link from '+eachlink+' is OK!' else: print 'The link from '+eachlink+' is ERROR!'
這其中幾個(gè)主要函數(shù):
1、urllib2.urlopen(url[, data][, timeout])//打開(kāi)一個(gè)URL
2、SGMLParser.feed(data) //獲得需要解析的HTML數(shù)據(jù)
3、SGMLParser.start_tag(attributes) //指定需要解析的HTML標(biāo)簽,在本程序中,我們調(diào)用了start_a,說(shuō)明我們需要解析HTML代碼中<a>標(biāo)簽。通過(guò)查找<a>標(biāo)簽中href屬性的value,可以獲得該網(wǎng)頁(yè)上所有鏈接的信息,只要我們指定的URL存在,就OK了。
這其實(shí)是一個(gè)很小的腳本,但也讓我激動(dòng)不已。一來(lái),我已經(jīng)跨進(jìn)了Python的世界,并用它解決了實(shí)際工作中的問(wèn)題,二來(lái),它的簡(jiǎn)單語(yǔ)法、縮進(jìn)格式著實(shí)讓我眼前一亮。今后,希望能夠多多使用Python,解決實(shí)際工作中的種種問(wèn)題,做到學(xué)以致用.
以上內(nèi)容是針對(duì)Python檢測(cè)網(wǎng)站鏈接是否已存在的相關(guān)介紹,希望對(duì)大家有所幫助!
相關(guān)文章
python利用pytesseract 實(shí)現(xiàn)本地識(shí)別圖片文字
這篇文章主要介紹了python利用pytesseract 實(shí)現(xiàn)本地識(shí)別圖片文字,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2020-12-12Python自動(dòng)化測(cè)試之登錄腳本的實(shí)現(xiàn)
本文主要介紹了Python自動(dòng)化測(cè)試之登錄腳本的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02使用python繪制cdf的多種實(shí)現(xiàn)方法
今天小編就為大家分享一篇使用python繪制cdf的多種實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02Django ORM多對(duì)多查詢方法(自定義第三張表&ManyToManyField)
今天小編就為大家分享一篇Django ORM多對(duì)多查詢方法(自定義第三張表&ManyToManyField),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-08-08python下對(duì)hsv顏色空間進(jìn)行量化操作
這篇文章主要介紹了python下對(duì)hsv顏色空間進(jìn)行量化操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-06-06python對(duì)象及面向?qū)ο蠹夹g(shù)詳解
這篇文章主要介紹了python對(duì)象及面向?qū)ο蠹夹g(shù),結(jié)合實(shí)例形式詳細(xì)分析了Python面向?qū)ο笏婕暗念悺?duì)象、方法、屬性等概念與使用技巧,需要的朋友可以參考下2016-07-07PyQt5基本控件使用詳解:單選按鈕、復(fù)選框、下拉框
這篇文章主要介紹了PyQt5基本控件使用:單選按鈕、復(fù)選框、下拉框,本文中的內(nèi)容和實(shí)例也基本回答了開(kāi)篇提到的問(wèn)題。需要的朋友可以參考下2019-08-08python操作excel文件并輸出txt文件的實(shí)例
今天小編就為大家分享一篇python操作excel文件并輸出txt文件的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-07-07