快捷導(dǎo)航

為什么說python適合寫爬蟲

更新時(shí)間：2020年06月11日 15:55:28 作者：silencement

在本文中，小編給讀者們整理的一篇關(guān)于分析為什么說python適合寫爬蟲的語言的相關(guān)內(nèi)容，有興趣的朋友們可以學(xué)習(xí)下。

抓取網(wǎng)頁本身的接口

相比與其他靜態(tài)編程語言，如java，c#，C++，python抓取網(wǎng)頁文檔的接口更簡潔；相比其他動(dòng)態(tài)腳本語言，如perl，shell，python的urllib2包提供了較為完整的訪問網(wǎng)頁文檔的API。（當(dāng)然ruby也是很好的選擇）

此外，抓取網(wǎng)頁有時(shí)候需要模擬瀏覽器的行為，很多網(wǎng)站對于生硬的爬蟲抓取都是封殺的。這是我們需要模擬user agent的行為構(gòu)造合適的請求，譬如模擬用戶登陸、模擬session/cookie的存儲(chǔ)和設(shè)置。在python里都有非常優(yōu)秀的第三方包幫你搞定，如Requests，mechanize

網(wǎng)頁抓取后的處理

抓取的網(wǎng)頁通常需要處理，比如過濾html標(biāo)簽，提取文本等。python的beautifulsoap提供了簡潔的文檔處理功能，能用極短的代碼完成大部分文檔的處理。

其實(shí)以上功能很多語言和工具都能做，但是用python能夠干得最快，最干凈。Life is short， u need python.

沖最后一句‘Lifeisshort，uneedpython'，立馬在當(dāng)當(dāng)上買了本python的書！以前就膜拜過python大牛，一直想學(xué)都扯于各種借口遲遲沒有開始。。

py用在linux上很強(qiáng)大，語言挺簡單的。

NO.1 快速開發(fā)（唯一能和python比開發(fā)效率的語言只有rudy）語言簡潔，沒那么多技巧，所以讀起來很清楚容易。
NO.2跨平臺(tái)（由于python的開源，他比java更能體現(xiàn)"一次編寫到處運(yùn)行"
NO.3解釋性（無須編譯，直接運(yùn)行／調(diào)試代碼）
NO.4構(gòu)架選擇太多（GUI構(gòu)架方面主要的就有 wxPython, tkInter, PyGtk, PyQt 。

知識(shí)點(diǎn)擴(kuò)展：

用python寫爬蟲相關(guān)的實(shí)例：

# coding:utf-8
import urllib

domain = 'http://www.liaoxuefeng.com'   #廖雪峰的域名
path = r'C:\Users\cyhhao2013\Desktop\temp\\' #html要保存的路徑

# 一個(gè)html的頭文件
input = open(r'C:\Users\cyhhao2013\Desktop\0.html', 'r')
head = input.read()

# 打開python教程主界面
f = urllib.urlopen("http://www.需要爬取的網(wǎng)址.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000")
home = f.read()
f.close()

# 替換所有空格回車（這樣容易好獲取url）
geturl = home.replace("\n", "")
geturl = geturl.replace(" ", "")

# 得到包含url的字符串
list = geturl.split(r'em;"><ahref="')[1:]

# 強(qiáng)迫癥犯了，一定要把第一個(gè)頁面也加進(jìn)去才完美
list.insert(0, '/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000">')

# 開始遍歷url List
for li in list:
 url = li.split(r'">')[0]
 url = domain + url    #拼湊url
 print url
 f = urllib.urlopen(url)
 html = f.read()

 # 獲得title為了寫文件名
 title = html.split("<title>")[1]
 title = title.split(" - 廖雪峰的官方網(wǎng)站</title>")[0]

 # 要轉(zhuǎn)一下碼，不然加到路徑里就悲劇了
 title = title.decode('utf-8').replace("/", " ")

 # 截取正文
 html = html.split(r'<!-- block main -->')[1]
 html = html.split(r'<h4>您的支持是作者寫作最大的動(dòng)力！</h4>')[0]
 html = html.replace(r'src="', 'src="' + domain)

 # 加上頭和尾組成完整的html
 html = head + html+"</body></html>"

 # 輸出文件
 output = open(path + "%d" % list.index(li) + title + '.html', 'w')
 output.write(html)
 output.close()

到此這篇關(guān)于為什么說python適合寫爬蟲的文章就介紹到這了,更多相關(guān)為什么用python寫爬蟲內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: