欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python采集博客中上傳的QQ截圖文件

 更新時(shí)間:2014年07月18日 09:06:21   投稿:junjie  
這篇文章主要介紹了python采集博客中上傳的QQ截圖文件,因?yàn)槲募形臅?huì)在某些時(shí)候亂碼,例如這件的文件名QQ截圖20120926174732,所以需要采集出來修改掉,需要的朋友可以參考下

哎,以前寫博文的時(shí)候沒注意,有些圖片用QQ來截取,獲得的圖片文件名都是類似于QQ截圖20120926174732-300×15.png的形式,昨天用ftp備份網(wǎng)站文件的時(shí)候發(fā)現(xiàn),中文名在flashfxp里面顯示的是亂碼的,看起來好難受,所以寫了一個(gè)python小腳本,爬取整個(gè)網(wǎng)站,然后獲取每個(gè)文章頁面的圖片名,并判斷如果是類似于QQ截圖20120926174732-300×15.png的形式就輸出并將該圖片地址和對(duì)應(yīng)的文章地址保存在文件中,然后通過該文件來逐個(gè)修改。

好了,下面是程序代碼:

import urllib2
from bs4 import BeautifulSoup
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
 
baseurl = "http://www.dbjr.com.cn/dont-worry.html"
#說明下,起始地址是第一篇文章的地址,通過該文章的頁面就
#可以使用BeautifulSoup模塊來獲取上一篇文章的地址
 
file = open(r"E:\123.txt","a")
 
def pageloop(url):
  page = urllib2.urlopen(url)
  soup = BeautifulSoup(page)
  img = soup.findAll(['img'])
  if img == []:
    print "當(dāng)前頁面沒有圖片"
    return
  else:
    for myimg in img:
      link = myimg.get('src')
      print link
      
      pattern = re.compile(r'QQ\S*[0-9]*png')
      badimg = pattern.findall(str(link))
      if badimg:
        print url
        file.write(link + "\n")
        file.write(url+"\n")
      
 
 
def getthenextpage(url):
  pageloop(url)
  page = urllib2.urlopen(url)
  soup = BeautifulSoup(page)
  for spanclass in soup.findAll(attrs={"class" : "article-nav-prev"}):
    #print spanclass
    if spanclass.find('article-nav-prev') != -1:
      pattern = re.compile(r'http://www.dbjr.com.cn/\S*html')
      pageurl = pattern.findall(str(spanclass))
      for i in pageurl:
        #print i
        getthenextpage(i)
       
      
 
getthenextpage(baseurl)
 
 
 
print "the end!"
file.close()

最后,對(duì)和我以前剛開始做網(wǎng)站的同學(xué)說下,圖片命名的話最好是用數(shù)字形式或者是英文、拼音的形式,要不然到最后想修改的話就麻煩了,所以最好就是從剛開始就養(yǎng)成好的習(xí)慣,用正確的命名規(guī)范來問文章、圖片來命名,這樣就會(huì)好很多。

相關(guān)文章

  • Python實(shí)戰(zhàn)小項(xiàng)目之Mnist手寫數(shù)字識(shí)別

    Python實(shí)戰(zhàn)小項(xiàng)目之Mnist手寫數(shù)字識(shí)別

    MNIST 數(shù)據(jù)集已經(jīng)是一個(gè)被”嚼爛”了的數(shù)據(jù)集, 很多教程都會(huì)對(duì)它”下手”, 幾乎成為一個(gè) “典范”. 不過有些人可能對(duì)它還不是很了解, 下面通過一個(gè)小實(shí)例來帶你了解它
    2021-10-10
  • Python中itertools庫的四個(gè)函數(shù)介紹

    Python中itertools庫的四個(gè)函數(shù)介紹

    這篇文章主要介紹了Python中itertools庫的四個(gè)函數(shù),主要討論itertools庫中的十分使用的幾個(gè)函數(shù),并重點(diǎn)介紹什么時(shí)候我們應(yīng)該考慮使用它們,需要的朋友可以參考一下
    2022-04-04
  • Python如何去除字符串中不需要的字符

    Python如何去除字符串中不需要的字符

    這篇文章主要介紹了Python如何去除字符串中不需要的字符問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • python簡單圖片操作:打開\顯示\保存圖像方法介紹

    python簡單圖片操作:打開\顯示\保存圖像方法介紹

    這篇文章主要介紹了python簡單圖片操作:打開\顯示\保存圖像方法介紹,還涉及將圖片保存為灰度圖的簡單方法示例,具有一定參考價(jià)值,需要的朋友可以了解下。
    2017-11-11
  • Django xadmin安裝及使用詳解

    Django xadmin安裝及使用詳解

    這篇文章主要介紹了Django xadmin安裝及使用詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-10-10
  • PyQt5事件處理之定時(shí)在控件上顯示信息的代碼

    PyQt5事件處理之定時(shí)在控件上顯示信息的代碼

    這篇文章主要介紹了PyQt5事件處理之定時(shí)在控件上顯示信息的代碼,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-03-03
  • Python的join函數(shù)的用法及實(shí)例

    Python的join函數(shù)的用法及實(shí)例

    這篇文章主要詳細(xì)介紹了python的join函數(shù)的用法及實(shí)例,文章中有詳細(xì)的代碼講解,有一定的參考價(jià)值,需要的同學(xué)可以參考閱讀
    2023-04-04
  • Python基于OpenCV的視頻圖像處理詳解

    Python基于OpenCV的視頻圖像處理詳解

    OpenCV是一個(gè)開源的,跨平臺(tái)的計(jì)算機(jī)視覺庫,它采用優(yōu)化的C/C++代碼編寫,能夠充分利用多核處理器的優(yōu)勢(shì)。本文主要和大家來聊聊基于Python?OpenCv的視頻圖像處理,感興趣的可以了解一下
    2023-02-02
  • Pycharm Available Package無法顯示/安裝包的問題Error Loading Package List解決

    Pycharm Available Package無法顯示/安裝包的問題Error Loading Package Li

    這篇文章主要介紹了Pycharm Available Package無法顯示/安裝包的問題Error Loading Package List解決,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-09-09
  • 詳解Python連接MySQL數(shù)據(jù)庫的多種方式

    詳解Python連接MySQL數(shù)據(jù)庫的多種方式

    這篇文章主要介紹了Python連接MySQL數(shù)據(jù)庫方式,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-04-04

最新評(píng)論