欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python網(wǎng)絡(luò)爬蟲學習筆記(1)

 更新時間:2018年04月09日 10:26:23   作者:賴權(quán)華  
這篇文章主要為大家詳細介紹了python網(wǎng)絡(luò)爬蟲學習筆記的第一篇,具有一定的參考價值,感興趣的小伙伴們可以參考一下

本文實例為大家分享了python網(wǎng)絡(luò)爬蟲的筆記,供大家參考,具體內(nèi)容如下

(一)   三種網(wǎng)頁抓取方法

1、 正則表達式:

模塊使用C語言編寫,速度快,但是很脆弱,可能網(wǎng)頁更新后就不能用了。

2、Beautiful Soup

模塊使用Python編寫,速度慢。

安裝:

pip install beautifulsoup4

3、 Lxml

模塊使用C語言編寫,即快速又健壯,通常應(yīng)該是最好的選擇。

(二) Lxml安裝

pip install lxml

如果使用lxml的css選擇器,還要安裝下面的模塊

pip install cssselect

(三)  使用lxml示例

import urllib.request as re
import lxml.html
#下載網(wǎng)頁并返回HTML
def download(url,user_agent='Socrates',num=2):
  print('下載:'+url)
  #設(shè)置用戶代理
  headers = {'user_agent':user_agent}
  request = re.Request(url,headers=headers)
  try:
    #下載網(wǎng)頁
    html = re.urlopen(request).read()
  except re.URLError as e:
    print('下載失敗'+e.reason)
    html=None
    if num>0:
      #遇到5XX錯誤時,遞歸調(diào)用自身重試下載,最多重復(fù)2次
      if hasattr(e,'code') and 500<=e.code<600:
        return download(url,num-1)
  return html
html = download('https://tieba.baidu.com/p/5475267611')
#將HTML解析為統(tǒng)一的格式
tree = lxml.html.fromstring(html)
# img = tree.cssselect('img.BDE_Image')
#通過lxml的xpath獲取src屬性的值,返回一個列表
img = tree.xpath('//img[@class="BDE_Image"]/@src')
x= 0
#迭代列表img,將圖片保存在當前目錄下
for i in img:
  re.urlretrieve(i,'%s.jpg'%x)
  x += 1

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • pygame實現(xiàn)貪吃蛇小游戲

    pygame實現(xiàn)貪吃蛇小游戲

    這篇文章主要為大家詳細介紹了pygame實現(xiàn)貪吃蛇小游戲,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-01-01
  • Python中字典的緩存池

    Python中字典的緩存池

    這篇文章主要介紹了Python中字典的緩存池,字典的緩存池采用數(shù)組實現(xiàn)的,并且容量也是80個,下文詳細介紹需要的小伙伴可以參考一下
    2022-05-05
  • Python批量查詢域名是否被注冊過

    Python批量查詢域名是否被注冊過

    本文給大家分享使用Python批量查詢域名是否被注冊過,非常不錯,具有參考借鑒價值,需要的的朋友參考下吧
    2017-06-06
  • python關(guān)于字典及遍歷的常用方法

    python關(guān)于字典及遍歷的常用方法

    這篇文章主要介紹了python關(guān)于字典及遍歷的常用方法,字典的鍵可以是字符串、整數(shù)、元組或字典。字典的值也可以是字符串、整數(shù),文章圍繞主題展開更多詳細的內(nèi)容,需要的小伙伴可以參考一下
    2022-06-06
  • Python 中pandas.read_excel詳細介紹

    Python 中pandas.read_excel詳細介紹

    這篇文章主要介紹了Python 中pandas.read_excel詳細介紹的相關(guān)資料,需要的朋友可以參考下
    2017-06-06
  • python實現(xiàn)的登錄和操作開心網(wǎng)腳本分享

    python實現(xiàn)的登錄和操作開心網(wǎng)腳本分享

    這篇文章主要介紹了python實現(xiàn)的登錄和操作開心網(wǎng)腳本分享,可以登錄開心網(wǎng),登錄后發(fā)送信息等功能,需要的朋友可以參考下
    2014-07-07
  • Python隊列、進程間通信、線程案例

    Python隊列、進程間通信、線程案例

    這篇文章主要介紹了Python隊列、進程間通信、線程,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-10-10
  • python驗證碼識別的示例代碼

    python驗證碼識別的示例代碼

    本篇文章主要介紹了python驗證碼識別的示例代碼,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-09-09
  • pandas中的series數(shù)據(jù)類型詳解

    pandas中的series數(shù)據(jù)類型詳解

    這篇文章主要介紹了pandas中的series數(shù)據(jù)類型詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-07-07
  • PyQt5+python3+pycharm開發(fā)環(huán)境配置教程

    PyQt5+python3+pycharm開發(fā)環(huán)境配置教程

    這篇文章主要介紹了PyQt5+python3+pycharm開發(fā)環(huán)境配置教程,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-03-03

最新評論