python網(wǎng)絡(luò)爬蟲學(xué)習(xí)筆記（1）

更新時(shí)間：2018年04月09日 10:26:23 作者：賴權(quán)華

這篇文章主要為大家詳細(xì)介紹了python網(wǎng)絡(luò)爬蟲學(xué)習(xí)筆記的第一篇，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下

本文實(shí)例為大家分享了python網(wǎng)絡(luò)爬蟲的筆記，供大家參考，具體內(nèi)容如下

（一）三種網(wǎng)頁抓取方法

1、正則表達(dá)式：

模塊使用C語言編寫，速度快，但是很脆弱，可能網(wǎng)頁更新后就不能用了。

2、Beautiful Soup

模塊使用Python編寫，速度慢。

安裝：

pip install beautifulsoup4

3、 Lxml

模塊使用C語言編寫，即快速又健壯，通常應(yīng)該是最好的選擇。

（二） Lxml安裝

pip install lxml

如果使用lxml的css選擇器，還要安裝下面的模塊

pip install cssselect

（三）使用lxml示例

import urllib.request as re
import lxml.html
#下載網(wǎng)頁并返回HTML
def download(url,user_agent='Socrates',num=2):
  print('下載:'+url)
  #設(shè)置用戶代理
  headers = {'user_agent':user_agent}
  request = re.Request(url,headers=headers)
  try:
    #下載網(wǎng)頁
    html = re.urlopen(request).read()
  except re.URLError as e:
    print('下載失敗'+e.reason)
    html=None
    if num>0:
      #遇到5XX錯(cuò)誤時(shí)，遞歸調(diào)用自身重試下載，最多重復(fù)2次
      if hasattr(e,'code') and 500<=e.code<600:
        return download(url,num-1)
  return html
html = download('https://tieba.baidu.com/p/5475267611')
#將HTML解析為統(tǒng)一的格式
tree = lxml.html.fromstring(html)
# img = tree.cssselect('img.BDE_Image')
#通過lxml的xpath獲取src屬性的值，返回一個(gè)列表
img = tree.xpath('//img[@class="BDE_Image"]/@src')
x= 0
#迭代列表img,將圖片保存在當(dāng)前目錄下
for i in img:
  re.urlretrieve(i,'%s.jpg'%x)
  x += 1

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

pygame實(shí)現(xiàn)貪吃蛇小游戲
這篇文章主要為大家詳細(xì)介紹了pygame實(shí)現(xiàn)貪吃蛇小游戲，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2022-01-01
Python中字典的緩存池
這篇文章主要介紹了Python中字典的緩存池，字典的緩存池采用數(shù)組實(shí)現(xiàn)的，并且容量也是80個(gè)，下文詳細(xì)介紹需要的小伙伴可以參考一下
2022-05-05
Python批量查詢域名是否被注冊過
本文給大家分享使用Python批量查詢域名是否被注冊過，非常不錯(cuò)，具有參考借鑒價(jià)值，需要的的朋友參考下吧
2017-06-06
python關(guān)于字典及遍歷的常用方法
這篇文章主要介紹了python關(guān)于字典及遍歷的常用方法，字典的鍵可以是字符串、整數(shù)、元組或字典。字典的值也可以是字符串、整數(shù)，文章圍繞主題展開更多詳細(xì)的內(nèi)容，需要的小伙伴可以參考一下
2022-06-06
Python 中pandas.read_excel詳細(xì)介紹
這篇文章主要介紹了Python 中pandas.read_excel詳細(xì)介紹的相關(guān)資料,需要的朋友可以參考下
2017-06-06
python實(shí)現(xiàn)的登錄和操作開心網(wǎng)腳本分享
這篇文章主要介紹了python實(shí)現(xiàn)的登錄和操作開心網(wǎng)腳本分享,可以登錄開心網(wǎng),登錄后發(fā)送信息等功能,需要的朋友可以參考下
2014-07-07
Python隊(duì)列、進(jìn)程間通信、線程案例
這篇文章主要介紹了Python隊(duì)列、進(jìn)程間通信、線程,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2019-10-10
python驗(yàn)證碼識別的示例代碼
本篇文章主要介紹了python驗(yàn)證碼識別的示例代碼，小編覺得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2017-09-09
pandas中的series數(shù)據(jù)類型詳解
這篇文章主要介紹了pandas中的series數(shù)據(jù)類型詳解，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-07-07
PyQt5+python3+pycharm開發(fā)環(huán)境配置教程
這篇文章主要介紹了PyQt5+python3+pycharm開發(fā)環(huán)境配置教程，本文給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
2020-03-03