快捷導(dǎo)航

python爬蟲中采集中遇到的問題整理

更新時間：2020年11月27日 15:20:13 作者：小妮淺淺

在本篇文章里小編給大家整理了關(guān)于python爬蟲中采集中遇到的問題整理內(nèi)容，需要的朋友們可以學(xué)習(xí)參考下。

在爬蟲的獲取數(shù)據(jù)上，一直在講一些爬取的方法，想必小伙伴們也學(xué)習(xí)了不少。在學(xué)習(xí)的過程中遇到了問題，大家也會一起交流解決，找出不懂和出錯的地方。今天小編想就爬蟲采集數(shù)據(jù)時遇到的問題進(jìn)行一個整理，以及在遇到不同的問題時，我們應(yīng)該想的是什么樣的解決思路，具體內(nèi)容如下分享給大家。

1、需要帶著cookie信息訪問

比如大多數(shù)的社交化軟件，基本上都是需要用戶登錄之后，才能看到有價值的東西，其實(shí)很簡單，我們可以使用Python提供的cookielib模塊，實(shí)現(xiàn)每次訪問都帶著源網(wǎng)站給的cookie信息去訪問，這樣只要我們成功模擬了登錄，爬蟲處于登錄狀態(tài)，那么我們就可以采集到登錄用戶看到的一切信息了。下面是使用cookie對httpRequest()方法的修改：

ckjar = cookielib.MozillaCookieJar()
cookies = urllib2.HTTPCookieProcessor(ckjar)   #定義cookies對象
def httpRequest(url):
 '''''
 @summary: 網(wǎng)絡(luò)請求
 '''
 try:
  ret = None
  SockFile = None
  request = urllib2.Request(url)
  request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
  request.add_header('Pragma', 'no-cache')
  opener = urllib2.build_opener(cookies)  #傳遞cookies對象
  SockFile = opener.open(request)
  ret = SockFile.read()
 finally:
  if SockFile:
   SockFile.close()
 return ret

2、編碼問題

網(wǎng)站目前最多的兩種編碼：utf-8，或者gbk，當(dāng)我們采集回來源網(wǎng)站編碼和我們數(shù)據(jù)庫存儲的編碼不一致時，比如http://163.com的編碼使用的是gbk，而我們需要存儲的是utf-8編碼的數(shù)據(jù)，那么我們可以使用Python中提供的encode()和decode()方法進(jìn)行轉(zhuǎn)換，比如：

content = content.decode('gbk', 'ignore')  #將gbk編碼轉(zhuǎn)為unicode編碼

content = content.encode('utf-8', 'ignore') #將unicode編碼轉(zhuǎn)為utf-8編碼

到此這篇關(guān)于python爬蟲中采集中遇到的問題整理的文章就介紹到這了,更多相關(guān)python爬蟲入門之采集中遇到的問題內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

Python?查找算法之二分查找線性查找與哈希查找實(shí)例探究
這篇文章主要為大家介紹了Python查找算法探究之二分查找、線性查找與哈希查找的實(shí)例探究,有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪
2024-01-01
OpenCV 圖像對比度的實(shí)踐
本文主要介紹了OpenCV 圖像對比度的實(shí)踐，文中通過示例代碼介紹的非常詳細(xì)，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-09-09
python實(shí)現(xiàn)連連看游戲
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)連連看游戲，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2020-02-02
如何用 Python 制作一個迷宮游戲
這篇文章主要介紹了如何用 Python 制作一個迷宮游戲，幫助大家更好的理解和學(xué)習(xí)python，感興趣的朋友可以了解下
2021-02-02
Python爬蟲實(shí)現(xiàn)使用beautifulSoup4爬取名言網(wǎng)功能案例
這篇文章主要介紹了Python爬蟲實(shí)現(xiàn)使用beautifulSoup4爬取名言網(wǎng)功能,結(jié)合實(shí)例形式分析了Python基于beautifulSoup4模塊爬取名言網(wǎng)并存入MySQL數(shù)據(jù)庫相關(guān)操作技巧,需要的朋友可以參考下
2019-09-09
Python基于paramunittest模塊實(shí)現(xiàn)excl參數(shù)化
這篇文章主要介紹了Python基于paramunittest模塊實(shí)現(xiàn)excl參數(shù)化,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
2020-04-04
Python實(shí)現(xiàn)孤立隨機(jī)森林算法的示例代碼
孤立森林（isolation?Forest）是一種高效的異常檢測算法，它和隨機(jī)森林類似，但每次選擇劃分屬性和劃分點(diǎn)（值）時都是隨機(jī)的，而不是根據(jù)信息增益或基尼指數(shù)來選擇。本文將用Python實(shí)現(xiàn)這一算法，需要的可以參考一下
2022-03-03
.img/.hdr格式轉(zhuǎn).nii格式的操作
這篇文章主要介紹了.img/.hdr格式轉(zhuǎn).nii格式的操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-07-07
講解Python中的標(biāo)識運(yùn)算符
這篇文章主要介紹了講解Python中的標(biāo)識運(yùn)算符,是Python學(xué)習(xí)當(dāng)中的基礎(chǔ)知識,需要的朋友可以參考下
2015-05-05
python批量處理文件或文件夾
這篇文章主要為大家詳細(xì)介紹了python批量處理文件或文件夾，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2019-08-08