欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲基本知識

 更新時間:2018年03月05日 09:18:11   作者:2048的渣渣  
最近在做一個項目,這個項目需要使用網(wǎng)絡(luò)爬蟲從特定網(wǎng)站上爬取數(shù)據(jù),于是乎,我打算寫一個爬蟲系列的文章,與大家分享如何編寫一個爬蟲。下面這篇文章給大家介紹了python爬蟲基本知識,感興趣的朋友一起看看吧

爬蟲簡介

      根據(jù)百度百科定義:網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。     

隨著大數(shù)據(jù)的不斷發(fā)展,爬蟲這個技術(shù)慢慢走入人們的視野,可以說爬蟲是大數(shù)據(jù)應(yīng)運而生的產(chǎn)物,至少我解除了大數(shù)據(jù)才了解到爬蟲這一技術(shù)

隨著數(shù)據(jù)的海量增長,我們需要在互聯(lián)網(wǎng)上選取所需要的數(shù)據(jù)進行自己研究的分析和實驗。這就用到了爬蟲這一技術(shù),下面就跟著小編一起初遇python爬蟲!

一、請求-響應(yīng)

在利用python語言實現(xiàn)爬蟲時,主要用到了urllib和urllib2兩個庫。首先用一段代碼說明如下:

 import urllib
 import urllib2
 url="http://www.baidu.com"
 request=urllib2.Request(url)
 response=urllib2.urlopen(request)
 print response.read()

我們知道一個網(wǎng)頁就是以html為骨架,js為肌肉,css為衣服所構(gòu)成的。上述代碼所實現(xiàn)的功能就是把百度網(wǎng)頁的源碼爬取到本地。

其中,url為要爬取的網(wǎng)頁的網(wǎng)址;request發(fā)出請求,response是接受請求后給出的響應(yīng)。最后用read()函數(shù)輸出的就是百度網(wǎng)頁的源碼。

二、GET-POST

兩者都是向網(wǎng)頁傳遞數(shù)據(jù),最重要的區(qū)別是GET方式是直接以鏈接形式訪問,鏈接中包含了所有的參數(shù),當然如果包含了密碼的話是一種不安全的選擇,不過你可以直觀地看到自己提交了什么內(nèi)容。

POST則不會在網(wǎng)址上顯示所有的參數(shù),不過如果你想直接查看提交了什么就不太方便了,大家可以酌情選擇。

POST方式:

 import urllib
 import urllib2
 values={'username':'2680559065@qq.com','Password':'XXXX'}
 data=urllib.urlencode(values)
 url='https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'
 request=urllib2.Request(url,data)
 response=urllib2.urlopen(request)
 print response.read()

GET方式:

import urllib
import urllib2
values={'username':'2680559065@qq.com','Password':'XXXX'}
data=urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request=urllib2.Request(geturl)
response=urllib2.urlopen(request)
print response.read()

三、異常處理

處理異常時,用到了try-except語句。

import urllib2
 try:
   response=urllib2.urlopen("http://www.xxx.com")
 except urllib2.URLError,e:
   print e.reason

總結(jié)

以上所述是小編給大家介紹的python爬蟲基本知識,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!

相關(guān)文章

  • Django 全局的static和templates的使用詳解

    Django 全局的static和templates的使用詳解

    這篇文章主要介紹了Django 全局的static和templates的使用詳解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-07-07
  • Python實現(xiàn)刪除重復(fù)視頻文件的方法詳解

    Python實現(xiàn)刪除重復(fù)視頻文件的方法詳解

    這篇文章主要為大家詳細介紹了如何利用Python實現(xiàn)刪除重復(fù)視頻文件功能,文中的示例代碼講解詳細,對我們學(xué)習(xí)Python有一定幫助,需要的可以參考一下
    2022-10-10
  • Python3-異步進程回調(diào)函數(shù)(callback())介紹

    Python3-異步進程回調(diào)函數(shù)(callback())介紹

    這篇文章主要介紹了Python3-異步進程回調(diào)函數(shù)(callback())介紹,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-05-05
  • 在Django同1個頁面中的多表單處理詳解

    在Django同1個頁面中的多表單處理詳解

    這篇文章主要給大家介紹了在Django同1個頁面中的多表單處理的相關(guān)資料,文章先給大家介紹了如何快速上手Django實現(xiàn)項目的方法,方便讓大家理解和學(xué)習(xí),需要的朋友可以參考借鑒,下面來一起看看吧。
    2017-01-01
  • opencv3/C++圖像像素操作詳解

    opencv3/C++圖像像素操作詳解

    今天小編就為大家分享一篇opencv3/C++圖像像素操作詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12
  • python opencv之分水嶺算法示例

    python opencv之分水嶺算法示例

    這篇文章主要介紹了python opencv之分水嶺算法示例,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-02-02
  • TensorFlow實現(xiàn)自定義Op方式

    TensorFlow實現(xiàn)自定義Op方式

    今天小編就為大家分享一篇TensorFlow實現(xiàn)自定義Op方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • 詳解python metaclass(元類)

    詳解python metaclass(元類)

    這篇文章主要介紹了python metaclass(元類)的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下
    2020-08-08
  • python中的閉包函數(shù)

    python中的閉包函數(shù)

    這篇文章主要介紹了python中的閉包函數(shù),非常不錯,具有參考借鑒價值,需要的朋友可以參考下
    2018-02-02
  • python在控制臺輸出進度條的方法

    python在控制臺輸出進度條的方法

    這篇文章主要介紹了python在控制臺輸出進度條的方法,實例分析了Python輸出進度條效果的方法,需要的朋友可以參考下
    2015-06-06

最新評論