python爬蟲獲取百度首頁內(nèi)容教學(xué)
由傳智播客教程整理,我們這里使用的是python2.7.x版本,就是2.7之后的版本,因為python3的改動略大,我們這里不用它?,F(xiàn)在我們嘗試一下url和網(wǎng)絡(luò)爬蟲配合的關(guān)系,爬瀏覽器首頁信息。
1、首先我們創(chuàng)建一個urllib2_test01.py,然后輸入以下代碼:
2、最簡單的獲取一個url的信息代碼居然只需要4行,執(zhí)行寫的python代碼:
3、之后我們會看到一下的結(jié)果
4、實際上,如果我們在瀏覽器上打開網(wǎng)頁主頁的話,右鍵選擇“查看源代碼”,你會發(fā)現(xiàn),跟我們剛打印出來的是一模一樣的。也就是說,上面的4行代碼就已經(jīng)幫我們把百度的首頁和全部代碼爬了下來了 。
5、下面我們介紹一下這四行代碼,第一行如下圖,這個就是將urllib2組件進入進來,供給我們使用。
6、圖片下面這步驟是調(diào)用urllib2庫中的urlopen方法,該方法接受一個url地址,然后將請求后的得到的回應(yīng)封裝到一個叫respones對象當中。
7、最后這里,是調(diào)用response對象的read()方法,將請求的回應(yīng)內(nèi)容以字符串的形式給html變量。最后的print html就是將字符串打出來,所以說一個基本的url請求是對應(yīng)的python代碼是很簡單的。
總結(jié):以上就是關(guān)于利用python爬蟲獲取百度信息的步驟內(nèi)容,感謝大家的學(xué)習(xí)和對腳本之家的支持。
- python 爬取百度文庫并下載(免費文章限定)
- Python實現(xiàn)的爬取百度文庫功能示例
- 用python下載百度文庫的代碼
- python 爬蟲如何實現(xiàn)百度翻譯
- 詳解用Python爬蟲獲取百度企業(yè)信用中企業(yè)基本信息
- Python爬蟲爬取百度搜索內(nèi)容代碼實例
- Python爬蟲實現(xiàn)百度翻譯功能過程詳解
- python 爬蟲百度地圖的信息界面的實現(xiàn)方法
- python爬蟲之爬取百度音樂的實現(xiàn)方法
- Python爬蟲實現(xiàn)爬取百度百科詞條功能實例
- Python爬蟲實現(xiàn)百度圖片自動下載
- Python爬蟲實例_利用百度地圖API批量獲取城市所有的POI點
- python實現(xiàn)百度文庫自動化爬取
相關(guān)文章
Python 解析pymysql模塊操作數(shù)據(jù)庫的方法
這篇文章主要介紹了Python 解析pymysql模塊操作數(shù)據(jù)庫的方法,本文給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2020-02-02Python免費驗證碼識別之ddddocr識別OCR自動庫實現(xiàn)
在Python爬蟲過程中,有些網(wǎng)站需要驗證碼通過后方可進入網(wǎng)頁,目的很簡單,就是區(qū)分是人閱讀訪問還是機器爬蟲,下面這篇文章主要給大家介紹了關(guān)于Python免費驗證碼識別之ddddocr識別OCR自動庫實現(xiàn)的相關(guān)資料,需要的朋友可以參考下2022-02-02python 6.7 編寫printTable()函數(shù)表格打印(完整代碼)
這篇文章主要介紹了python 6.7 編寫一個名為printTable()的函數(shù) 表格打印,本文通過實例代碼給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-03-03基于asyncio 異步協(xié)程框架實現(xiàn)收集B站直播彈幕
本文給大家分享的是基于asyncio 異步協(xié)程框架實現(xiàn)收集B站直播彈幕收集系統(tǒng)的簡單設(shè)計,并附上源碼,有需要的小伙伴可以參考下2016-09-09python ddt數(shù)據(jù)驅(qū)動最簡實例代碼
在本篇內(nèi)容里我們給大家分享了關(guān)于python ddt數(shù)據(jù)驅(qū)動最簡實例代碼以及相關(guān)知識點,需要的朋友們跟著學(xué)習(xí)下。2019-02-02