欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實(shí)現(xiàn)的爬取豆瓣電影信息功能案例

 更新時(shí)間:2019年09月15日 09:41:43   作者:爆炒小青蛙  
這篇文章主要介紹了Python實(shí)現(xiàn)的爬取豆瓣電影信息功能,結(jié)合具體實(shí)例形式分析了Python基于requests庫的爬蟲使用技巧,需要的朋友可以參考下

本文實(shí)例講述了Python實(shí)現(xiàn)的爬取豆瓣電影信息功能。分享給大家供大家參考,具體如下:

本案例的任務(wù)為,爬取豆瓣電影top250的電影信息(包括序號(hào)、電影名稱、導(dǎo)演和主演、評(píng)分以及經(jīng)典臺(tái)詞),并將信息作為字典形式保存進(jìn)txt文件。這里只用到requests庫,沒有用到beautifulsoup庫

step1:首先獲取每一頁的源代碼,用requests.get函數(shù)獲取,為了防止請(qǐng)求錯(cuò)誤,使用try...except..

def getpage(url):
  try:
    res=requests.get(url)
    if res.status_code==200:
      return res.text
    return None
  except RequestException:
    return None

step2:做每一頁的網(wǎng)址解析,打開原網(wǎng)址https://movie.douban.com/top250?,查看網(wǎng)頁源代碼,可以看到每一個(gè)電影的源代碼都是從<li>開始,在</li>處結(jié)束,寫好正則表達(dá)式以后爬到的列表的每一條item都有五個(gè)元素,因此將其寫成字典的形式,這里用到y(tǒng)ield函數(shù)(關(guān)于yield函數(shù)的用法,廖老師的有一篇文章比較好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/)

對(duì)單個(gè)網(wǎng)頁的進(jìn)行解析的代碼如下:

def parsepage(html):
  pat=re.compile('<li>.*?<em class="">(.*?)</em>.*?<img width="100" alt="(.*?)" src=.*?<p class="">'
          +'(.*?)</p>.*?property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>',re.S)
  items=re.findall(pat,html)
  for item in items:
    yield{
      'index':item[0],
      'title':item[1],
      'stars':item[2].strip(),
      'score':item[3],
      'concept':item[4]
    }

下面的代碼是將每一個(gè)item寫入文件,這里encoding='utf-8' 和ensure_ascii=False都是使寫入文件時(shí)中文能保持不變,json.dumps可以將(字典)對(duì)象轉(zhuǎn)化成字符串(但前面要先import json),with open的第二個(gè)參數(shù)為a,表示每次寫入時(shí),是往后追加(續(xù)接),而不是后一次寫入將之前內(nèi)容覆蓋,\n是指要每一次寫入一個(gè)item之后要換行。

def write_tofile(content):
  with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close()

最后,需要用循環(huán)語句將每一頁(共10頁)內(nèi)容都進(jìn)行以上操作。這里,第二頁的網(wǎng)址就是在第一頁的url上加上一個(gè)start=25, 第三頁是加上start=50,也就是每一頁的start=為25*i。最后一段代碼如下:

def main():
  url="https://movie.douban.com/top250?"
  for i in range(0,9):
    url_i=url+'start='+str(25*i)
    html_i=getpage(url_i)
    for item in parsepage(html_i):
      print(item)
      write_tofile(item)
if __name__ == '__main__':
  main()

當(dāng)然,這一段代碼還有一種寫法:

def main(start):
  url="https://movie.douban.com/top250?start="+str(start)
  html=getpage(url)
  for item in parsepage(html):
    print(item)
    write_tofile(item)
if __name__ == '__main__':
  for i in range(10):
    main(i*10)

如果想讓你的程序跑的更快,可以用多線程爬蟲(當(dāng)然這里其實(shí)沒有必要):

#在最開始加載Pool包
from multiprocessing import Pool
#最后的執(zhí)行段改為:
if __name__ == '__main__':
  for i in range(10):
    main(i*10)
  pool=Pool() #在循環(huán)外寫
  pool.map(main,[i*10 for i in range (10)])

更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總

希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。

相關(guān)文章

  • python2與python3的print及字符串格式化小結(jié)

    python2與python3的print及字符串格式化小結(jié)

    最近一直在用python寫程序,對(duì)于python的print一直很惱火,老是不按照預(yù)期輸出。今天特來總結(jié)一樣print和format,也希望能幫助大家徹底理解它們
    2018-11-11
  • 如何使用Python對(duì)NetCDF數(shù)據(jù)做空間相關(guān)分析

    如何使用Python對(duì)NetCDF數(shù)據(jù)做空間相關(guān)分析

    這篇文章主要介紹了如何使用Python對(duì)NetCDF數(shù)據(jù)做空間相關(guān)分析,幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下
    2021-04-04
  • tesseract-ocr使用以及訓(xùn)練方法

    tesseract-ocr使用以及訓(xùn)練方法

    這篇文章主要介紹了tesseract-ocr使用以及訓(xùn)練方法,結(jié)合圖文形式詳細(xì)分析了tesseract-ocr基本功能、用法、樣本訓(xùn)練與糾錯(cuò)技巧,需要的朋友可以參考下
    2023-04-04
  • python使用selenium實(shí)現(xiàn)批量文件下載

    python使用selenium實(shí)現(xiàn)批量文件下載

    這篇文章主要介紹了python使用selenium實(shí)現(xiàn)批量文件下載,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-03-03
  • 簡單談?wù)刾ython的反射機(jī)制

    簡單談?wù)刾ython的反射機(jī)制

    本文主要介紹python中的反射,以及該機(jī)制的簡單應(yīng)用,熟悉JAVA的程序員,一定經(jīng)常和Class.forName打交道。在很多框架中(Spring,eclipse plugin機(jī)制)都依賴于JAVA的反射能力,而在python中,也同樣有著強(qiáng)大的反射能力,本文將做簡單的介紹
    2016-06-06
  • python中pop()函數(shù)的語法與實(shí)例

    python中pop()函數(shù)的語法與實(shí)例

    這篇文章主要給大家介紹了關(guān)于python中pop()函數(shù)語法與實(shí)例的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-12-12
  • Python實(shí)現(xiàn)yaml與json文件批量互轉(zhuǎn)

    Python實(shí)現(xiàn)yaml與json文件批量互轉(zhuǎn)

    這篇文章主要為大家詳細(xì)介紹了如何利用Python語言實(shí)現(xiàn)yaml與json文件的批量互轉(zhuǎn),文中的示例代碼講解詳細(xì),感興趣的小伙伴可以動(dòng)手嘗試一下
    2022-07-07
  • Django中處理出錯(cuò)頁面的方法

    Django中處理出錯(cuò)頁面的方法

    這篇文章主要介紹了Django中處理出錯(cuò)頁面的方法,即在異常出現(xiàn)時(shí)返回的頁面信息,需要的朋友可以參考下
    2015-07-07
  • 使用Python實(shí)現(xiàn)簡單的人臉識(shí)別功能(附源碼)

    使用Python實(shí)現(xiàn)簡單的人臉識(shí)別功能(附源碼)

    Python中實(shí)現(xiàn)人臉識(shí)別功能有多種方法,依賴于python膠水語言的特性,我們通過調(diào)用包可以快速準(zhǔn)確的達(dá)成這一目的,本文給大家分享使用Python實(shí)現(xiàn)簡單的人臉識(shí)別功能的操作步驟,感興趣的朋友一起看看吧
    2021-12-12
  • Django數(shù)據(jù)映射(一對(duì)一,一對(duì)多,多對(duì)多)

    Django數(shù)據(jù)映射(一對(duì)一,一對(duì)多,多對(duì)多)

    本文主要介紹了Django數(shù)據(jù)映射(一對(duì)一,一對(duì)多,多對(duì)多),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2022-08-08

最新評(píng)論