詳解Python3網(wǎng)絡爬蟲(二):利用urllib.urlopen向有道翻譯發(fā)送數(shù)據(jù)獲得翻譯結果
上一篇內容,已經(jīng)學會了使用簡單的語句對網(wǎng)頁進行抓取。接下來,詳細看下urlopen的兩個重要參數(shù)url和data,學習如何發(fā)送數(shù)據(jù)data
一、urlopen的url參數(shù) Agent
url不僅可以是一個字符串,例如:http://www.baidu.com。url也可以是一個Request對象,這就需要我們先定義一個Request對象,然后將這個Request對象作為urlopen的參數(shù)使用,方法如下:
# -*- coding: UTF-8 -*- from urllib import request if __name__ == "__main__": req = request.Request("http://fanyi.baidu.com/") response = request.urlopen(req) html = response.read() html = html.decode("utf-8") print(html)
同樣,運行這段代碼同樣可以得到網(wǎng)頁信息。可以看一下這段代碼和上個筆記中代碼的不同,對比一下就明白了。
urlopen()返回的對象,可以使用read()進行讀取,同樣也可以使用geturl()方法、info()方法、getcode()方法。
geturl()返回的是一個url的字符串;
info()返回的是一些meta標記的元信息,包括一些服務器的信息;
getcode()返回的是HTTP的狀態(tài)碼,如果返回200表示請求成功。
關于META標簽和HTTP狀態(tài)碼的內容可以自行百度百科,里面有很詳細的介紹。
了解到這些,我們就可以進行新一輪的測試,新建文件名urllib_test04.py,編寫如下代碼:
# -*- coding: UTF-8 -*- from urllib import request if __name__ == "__main__": req = request.Request("http://fanyi.baidu.com/") response = request.urlopen(req) print("geturl打印信息:%s"%(response.geturl())) print('**********************************************') print("info打印信息:%s"%(response.info())) print('**********************************************') print("getcode打印信息:%s"%(response.getcode()))
可以得到如下運行結果:
二、urlopen的data參數(shù)
我們可以使用data參數(shù),向服務器發(fā)送數(shù)據(jù)。根據(jù)HTTP規(guī)范,GET用于信息獲取,POST是向服務器提交數(shù)據(jù)的一種請求,再換句話說:
從客戶端向服務器提交數(shù)據(jù)使用POST;
從服務器獲得數(shù)據(jù)到客戶端使用GET(GET也可以提交,暫不考慮)。
如果沒有設置urlopen()函數(shù)的data參數(shù),HTTP請求采用GET方式,也就是我們從服務器獲取信息,如果我們設置data參數(shù),HTTP請求采用POST方式,也就是我們向服務器傳遞數(shù)據(jù)。
data參數(shù)有自己的格式,它是一個基于application/x-www.form-urlencoded的格式,具體格式我們不用了解, 因為我們可以使用urllib.parse.urlencode()函數(shù)將字符串自動轉換成上面所說的格式。
三、發(fā)送data實例
向有道翻譯發(fā)送data,得到翻譯結果。
1.打開有道翻譯界面,如下圖所示:
2.鼠標右鍵檢查,也就是審查元素,如下圖所示:
3.選擇右側出現(xiàn)的Network,如下圖所示:
4.在左側輸入翻譯內容,輸入Jack,如下圖所示:
5.點擊自動翻譯按鈕,我們就可以看到右側出現(xiàn)的內容,如下圖所示:
6.點擊上圖紅框中的內容,查看它的信息,如下圖所示:
7.記住這些信息,這是我們一會兒寫程序需要用到的。
新建文件translate_test.py,編寫如下代碼:
# -*- coding: UTF-8 -*- from urllib import request from urllib import parse import json if __name__ == "__main__": #對應上圖的Request URL Request_URL = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=https://www.baidu.com/link' #創(chuàng)建Form_Data字典,存儲上圖的Form Data Form_Data = {} Form_Data['type'] = 'AUTO' Form_Data['i'] = 'Jack' Form_Data['doctype'] = 'json' Form_Data['xmlVersion'] = '1.8' Form_Data['keyfrom'] = 'fanyi.web' Form_Data['ue'] = 'ue:UTF-8' Form_Data['action'] = 'FY_BY_CLICKBUTTON' #使用urlencode方法轉換標準格式 data = parse.urlencode(Form_Data).encode('utf-8') #傳遞Request對象和轉換完格式的數(shù)據(jù) response = request.urlopen(Request_URL,data) #讀取信息并解碼 html = response.read().decode('utf-8') #使用JSON translate_results = json.loads(html) #找到翻譯結果 translate_results = translate_results['translateResult'][0][0]['tgt'] #打印翻譯信息 print("翻譯的結果是:%s" % translate_results)
這樣我們就可以查看翻譯的結果了,如下圖所示:
JSON是一種輕量級的數(shù)據(jù)交換格式,我們需要從爬取到的內容中找到JSON格式的數(shù)據(jù),這里面保存著我們想要的翻譯結果,再將得到的JSON格式的翻譯結果進行解析,得到我們最終想要的樣子:杰克。
以上所述是小編給大家介紹的Python3網(wǎng)絡爬蟲(二):利用urllib.urlopen向有道翻譯發(fā)送數(shù)據(jù)獲得翻譯結果詳解整合,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!
- Python udp網(wǎng)絡程序實現(xiàn)發(fā)送、接收數(shù)據(jù)功能示例
- Python大數(shù)據(jù)之網(wǎng)絡爬蟲的post請求、get請求區(qū)別實例分析
- Python 網(wǎng)絡編程之UDP發(fā)送接收數(shù)據(jù)功能示例【基于socket套接字】
- Python下載網(wǎng)絡文本數(shù)據(jù)到本地內存的四種實現(xiàn)方法示例
- Python爬蟲實例_城市公交網(wǎng)絡站點數(shù)據(jù)的爬取方法
- python網(wǎng)絡編程調用recv函數(shù)完整接收數(shù)據(jù)的三種方法
- python網(wǎng)絡編程之數(shù)據(jù)傳輸UDP實例分析
- python網(wǎng)絡編程學習筆記(九):數(shù)據(jù)庫客戶端 DB-API
- python如何獲取網(wǎng)絡數(shù)據(jù)
相關文章
Python實現(xiàn)個人微信號自動監(jiān)控告警的示例
今天小編就為大家分享一篇Python實現(xiàn)個人微信號自動監(jiān)控告警的示例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07詳解Python 定時框架 Apscheduler原理及安裝過程
Apscheduler是一個非常強大且易用的類庫,可以方便我們快速的搭建一些強大的定時任務或者定時監(jiān)控類的調度系統(tǒng),這篇文章主要介紹了Python 定時框架 Apscheduler ,需要的朋友可以參考下2019-06-06Python的Flask框架與數(shù)據(jù)庫連接的教程
這篇文章主要介紹了Python的Flask框架與數(shù)據(jù)庫連接的教程,是Flask框架學習當中的基本知識,需要的朋友可以參考下2015-04-04