Python3.4編程實現(xiàn)簡單抓取爬蟲功能示例
本文實例講述了Python3.4編程實現(xiàn)簡單抓取爬蟲功能。分享給大家供大家參考,具體如下:
import urllib.request import urllib.parse import re import urllib.request,urllib.parse,http.cookiejar import time def getHtml(url): cj=http.cookiejar.CookieJar() opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj)) opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')] urllib.request.install_opener(opener) page = urllib.request.urlopen(url) html = page.read() return html #print ( html) #html = getHtml("http://weibo.com/") def getimg(html): html = html.decode('utf-8') reg='"screen_name":"(.*?)"' imgre = re.compile(reg) src=re.findall(imgre,html) return src #print ("",getimg(html)) uid=['2808675432','3888405676','2628551531','2808587400'] for a in list(uid): print (getimg(getHtml("http://weibo.com/"+a))) time.sleep(1)
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設(shè)計有所幫助。
- Python爬蟲實例爬取網(wǎng)站搞笑段子
- Python網(wǎng)絡(luò)爬蟲與信息提取(實例講解)
- python利用urllib實現(xiàn)爬取京東網(wǎng)站商品圖片的爬蟲實例
- python制作小說爬蟲實錄
- python爬蟲實戰(zhàn)之最簡單的網(wǎng)頁爬蟲教程
- Python 爬蟲之超鏈接 url中含有中文出錯及解決辦法
- Python實現(xiàn)的爬蟲功能代碼
- 基于python爬蟲數(shù)據(jù)處理(詳解)
- python爬蟲入門教程--HTML文本的解析庫BeautifulSoup(四)
- Python爬蟲之模擬知乎登錄的方法教程
- python爬蟲入門教程--優(yōu)雅的HTTP庫requests(二)
- Python爬蟲實現(xiàn)(偽)球迷速成
相關(guān)文章
基于MSELoss()與CrossEntropyLoss()的區(qū)別詳解
今天小編就為大家分享一篇基于MSELoss()與CrossEntropyLoss()的區(qū)別詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01Python轉(zhuǎn)換HTML到Text純文本的方法
這篇文章主要介紹了Python轉(zhuǎn)換HTML到Text純文本的方法,分析了常用的兩種方法,非常具有實用價值,需要的朋友可以參考下2015-01-01python如何將.tif格式圖批量轉(zhuǎn)化為.jpg格式圖
這篇文章主要介紹了python如何將.tif格式圖批量轉(zhuǎn)化為.jpg格式圖問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-06-06