欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

為什么說python適合寫爬蟲

 更新時(shí)間:2020年06月11日 15:55:28   作者:silencement  
在本文中,小編給讀者們整理的一篇關(guān)于分析為什么說python適合寫爬蟲的語言的相關(guān)內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。

抓取網(wǎng)頁(yè)本身的接口

相比與其他靜態(tài)編程語言,如java,c#,C++,python抓取網(wǎng)頁(yè)文檔的接口更簡(jiǎn)潔;相比其他動(dòng)態(tài)腳本語言,如perl,shell,python的urllib2包提供了較為完整的訪問網(wǎng)頁(yè)文檔的API。(當(dāng)然ruby也是很好的選擇)

此外,抓取網(wǎng)頁(yè)有時(shí)候需要模擬瀏覽器的行為,很多網(wǎng)站對(duì)于生硬的爬蟲抓取都是封殺的。這是我們需要模擬user agent的行為構(gòu)造合適的請(qǐng)求,譬如模擬用戶登陸、模擬session/cookie的存儲(chǔ)和設(shè)置。在python里都有非常優(yōu)秀的第三方包幫你搞定,如Requests,mechanize

網(wǎng)頁(yè)抓取后的處理

抓取的網(wǎng)頁(yè)通常需要處理,比如過濾html標(biāo)簽,提取文本等。python的beautifulsoap提供了簡(jiǎn)潔的文檔處理功能,能用極短的代碼完成大部分文檔的處理。

其實(shí)以上功能很多語言和工具都能做,但是用python能夠干得最快,最干凈。Life is short, u need python.

沖最后一句‘Lifeisshort,uneedpython',立馬在當(dāng)當(dāng)上買了本python的書!以前就膜拜過python大牛,一直想學(xué)都扯于各種借口遲遲沒有開始。。

py用在linux上很強(qiáng)大,語言挺簡(jiǎn)單的。

  • NO.1 快速開發(fā)(唯一能和python比開發(fā)效率的語言只有rudy)語言簡(jiǎn)潔,沒那么多技巧,所以讀起來很清楚容易。
  • NO.2跨平臺(tái)(由于python的開源,他比java更能體現(xiàn)"一次編寫到處運(yùn)行"
  • NO.3解釋性( 無須編譯,直接運(yùn)行/調(diào)試代碼)
  • NO.4構(gòu)架選擇太多(GUI構(gòu)架方面 主要的就有 wxPython, tkInter, PyGtk, PyQt 。

知識(shí)點(diǎn)擴(kuò)展:

用python寫爬蟲相關(guān)的實(shí)例:

# coding:utf-8
import urllib

domain = 'http://www.liaoxuefeng.com'   #廖雪峰的域名
path = r'C:\Users\cyhhao2013\Desktop\temp\\' #html要保存的路徑

# 一個(gè)html的頭文件
input = open(r'C:\Users\cyhhao2013\Desktop\0.html', 'r')
head = input.read()

# 打開python教程主界面
f = urllib.urlopen("http://www.需要爬取的網(wǎng)址.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000")
home = f.read()
f.close()

# 替換所有空格回車(這樣容易好獲取url)
geturl = home.replace("\n", "")
geturl = geturl.replace(" ", "")

# 得到包含url的字符串
list = geturl.split(r'em;"><ahref="')[1:]

# 強(qiáng)迫癥犯了,一定要把第一個(gè)頁(yè)面也加進(jìn)去才完美
list.insert(0, '/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000">')

# 開始遍歷url List
for li in list:
 url = li.split(r'">')[0]
 url = domain + url    #拼湊url
 print url
 f = urllib.urlopen(url)
 html = f.read()

 # 獲得title為了寫文件名
 title = html.split("<title>")[1]
 title = title.split(" - 廖雪峰的官方網(wǎng)站</title>")[0]

 # 要轉(zhuǎn)一下碼,不然加到路徑里就悲劇了
 title = title.decode('utf-8').replace("/", " ")

 # 截取正文
 html = html.split(r'<!-- block main -->')[1]
 html = html.split(r'<h4>您的支持是作者寫作最大的動(dòng)力!</h4>')[0]
 html = html.replace(r'src="', 'src="' + domain)

 # 加上頭和尾組成完整的html
 html = head + html+"</body></html>"

 # 輸出文件
 output = open(path + "%d" % list.index(li) + title + '.html', 'w')
 output.write(html)
 output.close()

到此這篇關(guān)于為什么說python適合寫爬蟲的文章就介紹到這了,更多相關(guān)為什么用python寫爬蟲內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python根據(jù)文件后綴實(shí)現(xiàn)文件夾整理

    Python根據(jù)文件后綴實(shí)現(xiàn)文件夾整理

    這篇文章主要為大家詳細(xì)介紹了Python如何根據(jù)文件后綴實(shí)現(xiàn)文件夾整理,文中的示例代碼講解詳細(xì),具有一定的借鑒價(jià)值,有需要的可以參考下
    2024-02-02
  • django創(chuàng)建超級(jí)用戶過程解析

    django創(chuàng)建超級(jí)用戶過程解析

    這篇文章主要介紹了django創(chuàng)建超級(jí)用戶過程解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-09-09
  • Python Pillow.Image 圖像保存和參數(shù)選擇方式

    Python Pillow.Image 圖像保存和參數(shù)選擇方式

    今天小編就為大家分享一篇Python Pillow.Image 圖像保存和參數(shù)選擇方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • Python中的異常處理以及自定義異常類型方式

    Python中的異常處理以及自定義異常類型方式

    這篇文章主要介紹了Python中的異常處理以及自定義異常類型方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • pytorch中可視化之hook鉤子

    pytorch中可視化之hook鉤子

    本文主要介紹了pytorch中可視化之hook鉤子,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-03-03
  • 如何實(shí)現(xiàn)在pycharm中將.ui文件轉(zhuǎn)化為.py文件

    如何實(shí)現(xiàn)在pycharm中將.ui文件轉(zhuǎn)化為.py文件

    這篇文章主要介紹了如何實(shí)現(xiàn)在pycharm中將.ui文件轉(zhuǎn)化為.py文件,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下
    2022-06-06
  • 詳解Python3中的Sequence type的使用

    詳解Python3中的Sequence type的使用

    這篇文章主要介紹了詳解Python3中的Sequence type的使用,是Python入門學(xué)習(xí)中的基礎(chǔ)知識(shí),需要的朋友可以參考下
    2015-08-08
  • Python的speech_recognition庫(kù)如何將聲音轉(zhuǎn)為文字

    Python的speech_recognition庫(kù)如何將聲音轉(zhuǎn)為文字

    這篇文章主要介紹了通過Python的speech_recognition庫(kù)將聲音轉(zhuǎn)為文字,將聲音轉(zhuǎn)為文字,除了speech_recognition庫(kù),還要依賴pyaudio庫(kù),而且mac用戶需要安裝PortAudio,本文給大家介紹的非常詳細(xì),需要的朋友可以參考下
    2023-05-05
  • keras自動(dòng)編碼器實(shí)現(xiàn)系列之卷積自動(dòng)編碼器操作

    keras自動(dòng)編碼器實(shí)現(xiàn)系列之卷積自動(dòng)編碼器操作

    這篇文章主要介紹了keras自動(dòng)編碼器實(shí)現(xiàn)系列之卷積自動(dòng)編碼器操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-07-07
  • Python基于Tkinter編寫crc校驗(yàn)工具

    Python基于Tkinter編寫crc校驗(yàn)工具

    這篇文章主要介紹了Python基于Tkinter編寫crc校驗(yàn)工具,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-05-05

最新評(píng)論