Python實(shí)現(xiàn)的爬取豆瓣電影信息功能案例
本文實(shí)例講述了Python實(shí)現(xiàn)的爬取豆瓣電影信息功能。分享給大家供大家參考,具體如下:
本案例的任務(wù)為,爬取豆瓣電影top250的電影信息(包括序號(hào)、電影名稱、導(dǎo)演和主演、評(píng)分以及經(jīng)典臺(tái)詞),并將信息作為字典形式保存進(jìn)txt文件。這里只用到requests庫,沒有用到beautifulsoup庫
step1:首先獲取每一頁的源代碼,用requests.get函數(shù)獲取,為了防止請(qǐng)求錯(cuò)誤,使用try...except..
def getpage(url): try: res=requests.get(url) if res.status_code==200: return res.text return None except RequestException: return None
step2:做每一頁的網(wǎng)址解析,打開原網(wǎng)址https://movie.douban.com/top250?,查看網(wǎng)頁源代碼,可以看到每一個(gè)電影的源代碼都是從<li>開始,在</li>處結(jié)束,寫好正則表達(dá)式以后爬到的列表的每一條item都有五個(gè)元素,因此將其寫成字典的形式,這里用到y(tǒng)ield函數(shù)(關(guān)于yield函數(shù)的用法,廖老師的有一篇文章比較好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/)
對(duì)單個(gè)網(wǎng)頁的進(jìn)行解析的代碼如下:
def parsepage(html): pat=re.compile('<li>.*?<em class="">(.*?)</em>.*?<img width="100" alt="(.*?)" src=.*?<p class="">' +'(.*?)</p>.*?property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>',re.S) items=re.findall(pat,html) for item in items: yield{ 'index':item[0], 'title':item[1], 'stars':item[2].strip(), 'score':item[3], 'concept':item[4] }
下面的代碼是將每一個(gè)item寫入文件,這里encoding='utf-8' 和ensure_ascii=False都是使寫入文件時(shí)中文能保持不變,json.dumps可以將(字典)對(duì)象轉(zhuǎn)化成字符串(但前面要先import json),with open的第二個(gè)參數(shù)為a,表示每次寫入時(shí),是往后追加(續(xù)接),而不是后一次寫入將之前內(nèi)容覆蓋,\n是指要每一次寫入一個(gè)item之后要換行。
def write_tofile(content): with open('doubanfilms.txt','a',encoding='utf-8' ) as f: f.write(json.dumps(content,ensure_ascii=False)+'\n') f.close()
最后,需要用循環(huán)語句將每一頁(共10頁)內(nèi)容都進(jìn)行以上操作。這里,第二頁的網(wǎng)址就是在第一頁的url上加上一個(gè)start=25, 第三頁是加上start=50,也就是每一頁的start=為25*i。最后一段代碼如下:
def main(): url="https://movie.douban.com/top250?" for i in range(0,9): url_i=url+'start='+str(25*i) html_i=getpage(url_i) for item in parsepage(html_i): print(item) write_tofile(item) if __name__ == '__main__': main()
當(dāng)然,這一段代碼還有一種寫法:
def main(start): url="https://movie.douban.com/top250?start="+str(start) html=getpage(url) for item in parsepage(html): print(item) write_tofile(item) if __name__ == '__main__': for i in range(10): main(i*10)
如果想讓你的程序跑的更快,可以用多線程爬蟲(當(dāng)然這里其實(shí)沒有必要):
#在最開始加載Pool包 from multiprocessing import Pool #最后的執(zhí)行段改為: if __name__ == '__main__': for i in range(10): main(i*10) pool=Pool() #在循環(huán)外寫 pool.map(main,[i*10 for i in range (10)])
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
相關(guān)文章
python2與python3的print及字符串格式化小結(jié)
最近一直在用python寫程序,對(duì)于python的print一直很惱火,老是不按照預(yù)期輸出。今天特來總結(jié)一樣print和format,也希望能幫助大家徹底理解它們2018-11-11如何使用Python對(duì)NetCDF數(shù)據(jù)做空間相關(guān)分析
這篇文章主要介紹了如何使用Python對(duì)NetCDF數(shù)據(jù)做空間相關(guān)分析,幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下2021-04-04python使用selenium實(shí)現(xiàn)批量文件下載
這篇文章主要介紹了python使用selenium實(shí)現(xiàn)批量文件下載,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-03-03python中pop()函數(shù)的語法與實(shí)例
這篇文章主要給大家介紹了關(guān)于python中pop()函數(shù)語法與實(shí)例的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-12-12Python實(shí)現(xiàn)yaml與json文件批量互轉(zhuǎn)
這篇文章主要為大家詳細(xì)介紹了如何利用Python語言實(shí)現(xiàn)yaml與json文件的批量互轉(zhuǎn),文中的示例代碼講解詳細(xì),感興趣的小伙伴可以動(dòng)手嘗試一下2022-07-07使用Python實(shí)現(xiàn)簡單的人臉識(shí)別功能(附源碼)
Python中實(shí)現(xiàn)人臉識(shí)別功能有多種方法,依賴于python膠水語言的特性,我們通過調(diào)用包可以快速準(zhǔn)確的達(dá)成這一目的,本文給大家分享使用Python實(shí)現(xiàn)簡單的人臉識(shí)別功能的操作步驟,感興趣的朋友一起看看吧2021-12-12Django數(shù)據(jù)映射(一對(duì)一,一對(duì)多,多對(duì)多)
本文主要介紹了Django數(shù)據(jù)映射(一對(duì)一,一對(duì)多,多對(duì)多),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-08-08