欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python制作爬蟲抓取美女圖

 更新時間:2016年01月20日 11:08:38   作者:我的代碼會飛  
本文主要介紹了Python制作爬蟲抓取美女圖,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

今天我們就搞個爬蟲把美圖都給扒下來!我只是一個學(xué)習(xí)python的菜鳥,技術(shù)不可恥,技術(shù)是無罪的?。?!

煎蛋:

先說說程序的流程:獲取煎蛋妹子圖URL,得到網(wǎng)頁代碼,提取妹子圖片地址,訪問圖片地址并將圖片保存到本地。Ready? 先讓我們看看煎蛋妹子網(wǎng)頁:

  我們得到URL為:http://jandan.net/ooxx/page-1764#comments 1764就是頁碼, 首先我們要得到最新的頁碼,然后向前尋找,然后得到每頁中圖片的url。下面我們分析網(wǎng)站代碼寫出正則表達式!

  根據(jù)之前文章的方法我們寫出如下函數(shù)getNewPage:

def __getNewPage(self):
    pageCode = self.Get(self.__Url)
    type = sys.getfilesystemencoding()
    pattern = re.compile(r'<div .*?cp-pagenavi">.*?<span .*?current-comment-page">\[(.*?)\]</span>',re.S)
    newPage = re.search(pattern,pageCode.decode("UTF-8").encode(type))
    print pageCode.decode("UTF-8").encode(type)
    if newPage != None:
      return newPage.group(1)
    return 1500

  不要問我為什么如果失敗返回1500。。。 因為煎蛋把1500頁之前的圖片都給吃了。 你也可以返回0。接下來是圖片的

def __getAllPicUrl(self,pageIndex):
    realurl = self.__Url + "page-" + str(pageIndex) + "#comments"
    pageCode = self.Get(realurl)
    type = sys.getfilesystemencoding()
    pattern = re.compile('<p>.*?<a .*?view_img_link">.*?</a>.*?<img src="(.*?)".*?</p>',re.S)
    items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))
    for item in items:
      print item

  好了,得到了圖片地址,接下來就是訪問圖片地址然后保存圖片了:

def __savePics(self,img_addr,folder):
    for item in img_addr:
      filename = item.split('/')[-1]
      print "正在保存圖片:" + filename
      with open(filename,'wb') as file:
        img = self.Get(item)
        file.write(img)

  當(dāng)你覺得信心滿滿的時候,一定會有一盆冷水澆到你的頭上,畢竟程序就是這樣,考驗?zāi)愕哪托?,打磨你的自信。你測試了一會兒,然后你發(fā)現(xiàn)你重啟程序后再也無法獲取最新頁碼,你覺得我什么也沒動啊為什么會這樣。別著急,我們將得到的網(wǎng)頁代碼打印出來看看:

  看到了吧,是服務(wù)器感覺你不像瀏覽器訪問的結(jié)果把你的ip給屏蔽了。 真是給跪了,辛辛苦苦碼一年,屏蔽回到解放前!那么這個如何解決呢,答:換ip 找代理。接下來我們要改一下我們的HttpClient.py 將里面的opener設(shè)置下代理服務(wù)器。具體代理服務(wù)器請自行百度之,關(guān)鍵字:http代理 。 想找到一個合適的代理也不容易 自己ie Internet選項挨個試試,測試下網(wǎng)速。

# -*- coding: utf-8 -*-
import cookielib, urllib, urllib2, socket
import zlib,StringIO
class HttpClient:
 __cookie = cookielib.CookieJar()
 __proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'})#設(shè)置代理服務(wù)器與端口
 __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie),__proxy_handler)#生成opener
 __req.addheaders = [
  ('Accept', 'application/javascript, */*;q=0.8'),
  ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)')
 ]
 urllib2.install_opener(__req)

 def Get(self, url, refer=None):
  try:
   req = urllib2.Request(url)
   #req.add_header('Accept-encoding', 'gzip')
   if not (refer is None):
    req.add_header('Referer', refer)
   response = urllib2.urlopen(req, timeout=120)
   html = response.read()
   #gzipped = response.headers.get('Content-Encoding')
   #if gzipped:
   #  html = zlib.decompress(html, 16+zlib.MAX_WBITS)
   return html
  except urllib2.HTTPError, e:
   return e.read()
  except socket.timeout, e:
   return ''
  except socket.error, e:
   return ''

  然后,就可以非常愉快的查看圖片了。不過用了代理速度好慢。。??梢栽O(shè)置timeout稍微長一點兒,防止圖片下載不下來!

  好了,rosi的下篇文章再放!現(xiàn)在是時候上一波代碼了:

# -*- coding: utf-8 -*-
import cookielib, urllib, urllib2, socket
import zlib,StringIO
class HttpClient:
 __cookie = cookielib.CookieJar()
 __proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'})
 __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie),__proxy_handler)
 __req.addheaders = [
  ('Accept', 'application/javascript, */*;q=0.8'),
  ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)')
 ]
 urllib2.install_opener(__req)

 def Get(self, url, refer=None):
  try:
   req = urllib2.Request(url)
   req.add_header('Accept-encoding', 'gzip')
   if not (refer is None):
    req.add_header('Referer', refer)
   response = urllib2.urlopen(req, timeout=120)
   html = response.read()
   gzipped = response.headers.get('Content-Encoding')
   if gzipped:
     html = zlib.decompress(html, 16+zlib.MAX_WBITS)
   return html
  except urllib2.HTTPError, e:
   return e.read()
  except socket.timeout, e:
   return ''
  except socket.error, e:
   return ''

 def Post(self, url, data, refer=None):
  try:
   #req = urllib2.Request(url, urllib.urlencode(data))
   req = urllib2.Request(url,data)
   if not (refer is None):
    req.add_header('Referer', refer)
   return urllib2.urlopen(req, timeout=120).read()
  except urllib2.HTTPError, e:
   return e.read()
  except socket.timeout, e:
   return ''
  except socket.error, e:
   return ''

 def Download(self, url, file):
  output = open(file, 'wb')
  output.write(urllib2.urlopen(url).read())
  output.close()

# def urlencode(self, data):
#  return urllib.quote(data)

 def getCookie(self, key):
  for c in self.__cookie:
   if c.name == key:
    return c.value
  return ''

 def setCookie(self, key, val, domain):
  ck = cookielib.Cookie(version=0, name=key, value=val, port=None, port_specified=False, domain=domain, domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False)
  self.__cookie.set_cookie(ck)
#self.__cookie.clear() clean cookie
# vim : tabstop=2 shiftwidth=2 softtabstop=2 expandtab

HttpClient
# -*- coding: utf-8 -*-
from __future__ import unicode_literals
from HttpClient import HttpClient
import sys,re,os
class JianDan(HttpClient):
  def __init__(self):
    self.__pageIndex = 1500 #之前的圖片被煎蛋吞了
    self.__Url = "http://jandan.net/ooxx/"
    self.__floder = "jiandan"
  def __getAllPicUrl(self,pageIndex):
    realurl = self.__Url + "page-" + str(pageIndex) + "#comments"
    pageCode = self.Get(realurl)
    type = sys.getfilesystemencoding()
    pattern = re.compile('<p>.*?<a .*?view_img_link">.*?</a>.*?<img src="(.*?)".*?</p>',re.S)
    items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))
    for item in items:
      print item
    self.__savePics(items,self.__floder)

  def __savePics(self,img_addr,folder):
    for item in img_addr:
      filename = item.split('/')[-1]
      print "正在保存圖片:" + filename
      with open(filename,'wb') as file:
        img = self.Get(item)
        file.write(img)

  def __getNewPage(self):
    pageCode = self.Get(self.__Url)
    type = sys.getfilesystemencoding()
    pattern = re.compile(r'<div .*?cp-pagenavi">.*?<span .*?current-comment-page">\[(.*?)\]</span>',re.S)
    newPage = re.search(pattern,pageCode.decode("UTF-8").encode(type))
    print pageCode.decode("UTF-8").encode(type)
    if newPage != None:
      return newPage.group(1)
    return 1500

  def start(self):
    isExists=os.path.exists(self.__floder)#檢測是否存在目錄
    print isExists
    if not isExists:
      os.mkdir(self.__floder)
    os.chdir(self.__floder)
    page = int(self.__getNewPage())
    for i in range(self.__pageIndex,page):
      self.__getAllPicUrl(i)

if __name__ == '__main__':
  jd = JianDan()
  jd.start()

JianDan

相關(guān)文章

  • Python模塊的加載講解

    Python模塊的加載講解

    今天小編就為大家分享一篇關(guān)于Python模塊的加載講解,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-01-01
  • Python編程實現(xiàn)粒子群算法(PSO)詳解

    Python編程實現(xiàn)粒子群算法(PSO)詳解

    這篇文章主要介紹了Python編程實現(xiàn)粒子群算法(PSO)詳解,涉及粒子群算法的原理,過程,以及實現(xiàn)代碼示例,具有一定參考價值,需要的朋友可以了解下。
    2017-11-11
  • asyncio 的 coroutine對象 與 Future對象使用指南

    asyncio 的 coroutine對象 與 Future對象使用指南

    asyncio是Python 3.4版本引入的標準庫,直接內(nèi)置了對異步IO的支持。asyncio的編程模型就是一個消息循環(huán)。今天我們就來詳細討論下asyncio 中的 coroutine 與 Future對象
    2016-09-09
  • python實現(xiàn)機器人行走效果

    python實現(xiàn)機器人行走效果

    這篇文章主要為大家詳細介紹了python實現(xiàn)機器人行走效果,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-01-01
  • NumPy之矩陣向量線性代數(shù)等操作示例

    NumPy之矩陣向量線性代數(shù)等操作示例

    這篇文章主要為大家介紹了NumPy之矩陣向量線性代數(shù)等操作示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2023-04-04
  • Python中的日期時間處理詳解

    Python中的日期時間處理詳解

    Python程序能用很多方式處理日期和時間。轉(zhuǎn)換日期格式是一個常見的例行瑣事,這篇文章主要介紹了Python中的日期時間處理的幾種方式的區(qū)別和聯(lián)系,需要的朋友可以參考下
    2016-11-11
  • Python對象轉(zhuǎn)換為json的方法步驟

    Python對象轉(zhuǎn)換為json的方法步驟

    這篇文章主要介紹了Python對象轉(zhuǎn)換為json的方法步驟,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-04-04
  • python利用paramiko連接遠程服務(wù)器執(zhí)行命令的方法

    python利用paramiko連接遠程服務(wù)器執(zhí)行命令的方法

    下面小編就為大家?guī)硪黄猵ython利用paramiko連接遠程服務(wù)器執(zhí)行命令的方法。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-10-10
  • 用python的哈希函數(shù)對密碼加密

    用python的哈希函數(shù)對密碼加密

    大家好,本篇文章主要講的是用python的哈希函數(shù)對密碼加密,感興趣的同學(xué)趕快來看一看吧,對你有幫助的話記得收藏一下
    2022-02-02
  • python中創(chuàng)建以及刪除虛擬環(huán)境的幾種方法總結(jié)

    python中創(chuàng)建以及刪除虛擬環(huán)境的幾種方法總結(jié)

    在Python?中創(chuàng)建虛擬環(huán)境非常容易,但是刪除虛擬環(huán)境可能會有一些挑戰(zhàn),這篇文章主要給大家介紹了關(guān)于python中創(chuàng)建以及刪除虛擬環(huán)境的幾種方法,需要的朋友可以參考下
    2024-03-03

最新評論