欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

利用Python3分析sitemap.xml并抓取導(dǎo)出全站鏈接詳解

 更新時(shí)間:2017年07月04日 11:59:07   作者:然之  
因?yàn)樽罱鼡Q了網(wǎng)址,所以需要在百度站長(zhǎng)平臺(tái)提交網(wǎng)址,不管是主動(dòng)推送還是手動(dòng)提交,前提都是要整理網(wǎng)站的鏈接,手動(dòng)添加太麻煩,于是就想寫(xiě)個(gè)腳本直接抓取全站鏈接并導(dǎo)出,本文詳細(xì)介紹的是實(shí)現(xiàn)的方法及過(guò)程,需要的朋友們一起來(lái)看看吧。

前言

最近網(wǎng)站從HTTPS轉(zhuǎn)為HTTP,更換了網(wǎng)址,舊網(wǎng)址做了301重定向,折騰有點(diǎn)大,于是在百度站長(zhǎng)平臺(tái)提交網(wǎng)址,不管是主動(dòng)推送還是手動(dòng)提交,前提都是要整理網(wǎng)站的鏈接,手動(dòng)添加太麻煩,效率低,于是就想寫(xiě)個(gè)腳本直接抓取全站鏈接并導(dǎo)出,本文就和大家一起分享如何使用python3實(shí)現(xiàn)抓取鏈接導(dǎo)出。

首先網(wǎng)站要有網(wǎng)站地圖sitemap.xml文件地址,其次我這里用的是python3版本,如果你的環(huán)境是python2,需要對(duì)代碼進(jìn)行調(diào)整,因?yàn)閜ython2和python3很多地方差別還是挺大的。

下面是python 3代碼,將里面的鏈接地址換成你自己的網(wǎng)址即可:

#coding=utf-8
import urllib
import urllib.request import re
url='http://www.ranzhi.org/sitemap.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://www.ranzhi.org.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

我們能來(lái)看一下運(yùn)行結(jié)果:

導(dǎo)出TXT格式文件后,再在百度站長(zhǎng)平臺(tái)手動(dòng)提交就方便的多了。當(dāng)然我們也可以使用更快的主動(dòng)推送方式,因?yàn)槲业木W(wǎng)站是用PHP+mysql開(kāi)發(fā)的,所以我們這里使用PHP腳本將上面抓取的鏈接再處理下,然后主動(dòng)推送給百度,一遍加快爬蟲(chóng)抓取時(shí)間。

上面1是你的站點(diǎn)的主動(dòng)推送API,這個(gè)可以在百度站長(zhǎng)平臺(tái)獲?。?是要主動(dòng)推送的網(wǎng)站地址,這里就可以用到我們上面抓取的全站鏈接了。將鏈接地址整理放到該數(shù)組中,運(yùn)行一下個(gè)這個(gè)PHP腳本,就可以了。一鍵提交,及高效便捷,又能縮短爬蟲(chóng)爬去時(shí)間,有助于網(wǎng)站頁(yè)面收錄。

我們?cè)谄綍r(shí)的SEO或服務(wù)器運(yùn)維工作中,時(shí)常會(huì)將重復(fù)工作自動(dòng)化,復(fù)雜工作間變化,有助于提升效率,如果大家在操作過(guò)充中有何問(wèn)題可以一起分享交流討論。

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)腳本之家的支持。

相關(guān)文章

最新評(píng)論