Python爬蟲——爬取豆瓣電影Top250代碼實(shí)例
利用python爬取豆瓣電影Top250的相關(guān)信息,包括電影詳情鏈接,圖片鏈接,影片中文名,影片外國(guó)名,評(píng)分,評(píng)價(jià)數(shù),概況,導(dǎo)演,主演,年份,地區(qū),類別這12項(xiàng)內(nèi)容,然后將爬取的信息寫入Excel表中?;旧吓廊〗Y(jié)果還是挺好的。具體代碼如下:
#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt
#得到頁(yè)面全部?jī)?nèi)容
def askURL(url):
request = urllib2.Request(url)#發(fā)送請(qǐng)求
try:
response = urllib2.urlopen(request)#取得響應(yīng)
html= response.read()#獲取網(wǎng)頁(yè)內(nèi)容
#print html
except urllib2.URLError, e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
return html
#獲取相關(guān)內(nèi)容
def getData(baseurl):
findLink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片詳情鏈接
findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片圖片
findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
#找到評(píng)分
findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#找到評(píng)價(jià)人數(shù)
findJudge=re.compile(r'<span>(\d*)人評(píng)價(jià)</span>')
#找到概況
findInq=re.compile(r'<span class="inq">(.*)</span>')
#找到影片相關(guān)內(nèi)容:導(dǎo)演,主演,年份,地區(qū),類別
findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
#去掉無(wú)關(guān)內(nèi)容
remove=re.compile(r' |\n|</br>|\.*')
datalist=[]
for i in range(0,10):
url=baseurl+str(i*25)
html=askURL(url)
soup = BeautifulSoup(html, "html.parser")
for item in soup.find_all('div',class_='item'):#找到每一個(gè)影片項(xiàng)
data=[]
item=str(item)#轉(zhuǎn)換成字符串
#print item
link=re.findall(findLink,item)[0]
data.append(link)#添加詳情鏈接
imgSrc=re.findall(findImgSrc,item)[0]
data.append(imgSrc)#添加圖片鏈接
titles=re.findall(findTitle,item)
#片名可能只有一個(gè)中文名,沒有外國(guó)名
if(len(titles)==2):
ctitle=titles[0]
data.append(ctitle)#添加中文片名
otitle=titles[1].replace(" / ","")#去掉無(wú)關(guān)符號(hào)
data.append(otitle)#添加外國(guó)片名
else:
data.append(titles[0])#添加中文片名
data.append(' ')#留空
rating=re.findall(findRating,item)[0]
data.append(rating)#添加評(píng)分
judgeNum=re.findall(findJudge,item)[0]
data.append(judgeNum)#添加評(píng)論人數(shù)
inq=re.findall(findInq,item)
#可能沒有概況
if len(inq)!=0:
inq=inq[0].replace("。","")#去掉句號(hào)
data.append(inq)#添加概況
else:
data.append(' ')#留空
bd=re.findall(findBd,item)[0]
bd=re.sub(remove,"",bd)
bd=re.sub('<br>'," ",bd)#去掉<br>
bd=re.sub('/'," ",bd)#替換/
#data.append(bd)
words=bd.split(" ")
for s in words:
if len(s)!=0 and s!=' ':#去掉空白內(nèi)容
data.append(s)
#主演有可能因?yàn)閷?dǎo)演內(nèi)容太長(zhǎng)而沒有
if(len(data)!=12):
data.insert(8,' ')#留空
datalist.append(data)
return datalist
#將相關(guān)數(shù)據(jù)寫入excel中
def saveData(datalist,savepath):
book=xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet=book.add_sheet('豆瓣電影Top250',cell_overwrite_ok=True)
col=('電影詳情鏈接','圖片鏈接','影片中文名','影片外國(guó)名',
'評(píng)分','評(píng)價(jià)數(shù)','概況','導(dǎo)演','主演','年份','地區(qū)','類別')
for i in range(0,12):
sheet.write(0,i,col[i])#列名
for i in range(0,250):
data=datalist[i]
for j in range(0,12):
sheet.write(i+1,j,data[j])#數(shù)據(jù)
book.save(savepath)#保存
def main():
baseurl='https://movie.douban.com/top250?start='
datalist=getData(baseurl)
savapath=u'豆瓣電影Top250.xlsx'
saveData(datalist,savapath)
main()
Excel表部分內(nèi)容如下:

以上所述是小編給大家介紹的Python爬取豆瓣電影Top250實(shí)例詳解整合,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
相關(guān)文章
Python查找不限層級(jí)Json數(shù)據(jù)中某個(gè)key或者value的路徑方式
今天小編就為大家分享一篇Python查找不限層級(jí)Json數(shù)據(jù)中某個(gè)key或者value的路徑方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02
讓代碼變得更易維護(hù)的7個(gè)Python庫(kù)
今天小編就為大家分享一篇關(guān)于讓代碼變得更易維護(hù)的7個(gè)Python庫(kù),小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧2018-10-10
使用PyTorch實(shí)現(xiàn)MNIST手寫體識(shí)別代碼
今天小編就為大家分享一篇使用PyTorch實(shí)現(xiàn)MNIST手寫體識(shí)別代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-01-01
Python運(yùn)算符的使用保姆級(jí)教學(xué)
這篇文章主要給大家介紹了關(guān)于Python運(yùn)算符使用的相關(guān)資料,文中總結(jié)了Python中的算術(shù)運(yùn)算符、賦值運(yùn)算符、比較運(yùn)算符、邏輯運(yùn)算符、位運(yùn)算符和成員運(yùn)算符的用法和特性,需要的朋友可以參考下2024-11-11
Python學(xué)習(xí)之字符串函數(shù)使用詳解
Python的友好在于提供了非常好強(qiáng)大的功能函數(shù)模塊,對(duì)于字符串的使用,同樣提供許多簡(jiǎn)單便捷的字符串函數(shù)。Python 字符串自帶了很多有用的函數(shù),快來(lái)跟隨小編學(xué)習(xí)一下這些函數(shù)的應(yīng)用詳解吧2021-12-12
Python實(shí)現(xiàn)數(shù)值取整方法的完全指南
在金融計(jì)算、數(shù)據(jù)分析和工程領(lǐng)域,數(shù)值取整是至關(guān)重要的基礎(chǔ)操作,本文將深入解析Python數(shù)值取整的所有方法以及其特定的應(yīng)用場(chǎng)景和陷阱,希望對(duì)大家有一定的幫助2025-08-08
python 如何通過(guò)KNN來(lái)填充缺失值
這篇文章主要介紹了python 通過(guò)KNN來(lái)填充缺失值的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05

