欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python正則匹配抓取豆瓣電影鏈接和評論代碼分享

 更新時間:2013年12月27日 09:52:27   作者:  
抓取豆瓣各類型電影的鏈接和評論,按評分排列

復(fù)制代碼 代碼如下:

import urllib.request
import re
import time

def movie(movieTag):

    tagUrl=urllib.request.urlopen(url)
    tagUrl_read = tagUrl.read().decode('utf-8')
    return tagUrl_read

def subject(tagUrl_read):

    '''
        這里還存在問題:
        ①這只針對單獨的一頁進行排序,而沒有對全部頁面的電影進行排序
        ②下次更新添加電影鏈接,考慮添加電影海報
        ③需要追加列表
        ④導(dǎo)入到本地txt或excel中
        ⑤在匹配電影名字時是否可以同時匹配鏈接與名字、評分、評論組成數(shù)組
        ⑥
    '''
#正則表達式匹配電影的名字(鏈接)、評分與評論   
    nameURL = re.findall(r'(http://movie.douban.com/subject/[0-9.]+)\/"\s+title="(.+)"',tagUrl_read)
    scoreURL = re.findall(r'<span\s+class="rating_nums">([0-9.]+)<\/span>',tagUrl_read)
    evaluateURL = re.findall(r'<span\s+class="pl">\((\w+)人評價\)<\/span>',tagUrl_read)
    movieLists = list(zip(nameURL,scoreURL,evaluateURL))
    newlist.extend(movieLists)
    return newlist

#用quote處理特殊(中文)字符
movie_type = urllib.request.quote(input('請輸入電影類型(如劇情、喜劇、懸疑):'))
page_end=int(input('請輸入搜索結(jié)束時的頁碼:'))
num_end=page_end*20
num=0
page_num=1
newlist=[]
while num<num_end:
    url=r'http://movie.douban.com/tag/%s?start=%d'%(movie_type,num)
    movie_url = movie(url)
    subject_url=subject(movie_url)
    num=page_num*20
    page_num+=1
else:
    #使用sorted函數(shù)對列表進行排列,reverse參數(shù)為True時升序,默認或False時為降序, key=lambda還不是很明白這里的原理
    movieLIST = sorted(newlist, key=lambda movieList : movieList[1],reverse = True)
    for movie in movieLIST:
        print(movie)

time.sleep(3)

print('結(jié)束')

相關(guān)文章

  • python中opencv?Canny邊緣檢測

    python中opencv?Canny邊緣檢測

    這篇文章主要介紹了python中opencv?Canny邊緣檢測,Canny邊緣檢測是一種使用多級邊緣檢測算法檢測邊緣的方法。OpenCV提供了函數(shù)cv2.Canny()實現(xiàn)Canny邊緣檢測。更多相關(guān)內(nèi)容需要的小伙伴可以參考下面文章內(nèi)容
    2022-06-06
  • Python 如何讀取字典的所有鍵-值對

    Python 如何讀取字典的所有鍵-值對

    這篇文章主要介紹了Python 讀取字典的所有鍵-值對操作,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • Django 實現(xiàn)將圖片轉(zhuǎn)為Base64,然后使用json傳輸

    Django 實現(xiàn)將圖片轉(zhuǎn)為Base64,然后使用json傳輸

    這篇文章主要介紹了Django 實現(xiàn)將圖片轉(zhuǎn)為Base64,然后使用json傳輸,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-03-03
  • 解決Python串口接收無標識不定長數(shù)據(jù)

    解決Python串口接收無標識不定長數(shù)據(jù)

    這篇文章主要介紹了解決Python串口接收無標識不定長數(shù)據(jù)問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-09-09
  • 如何用python繪制雷達圖

    如何用python繪制雷達圖

    這篇文章主要介紹了如何用python繪制雷達圖,幫助大家更好的利用python進行數(shù)據(jù)分析,感興趣的朋友可以了解下
    2021-04-04
  • Python如何使用神經(jīng)網(wǎng)絡(luò)進行簡單文本分類

    Python如何使用神經(jīng)網(wǎng)絡(luò)進行簡單文本分類

    這篇文章主要介紹了Python如何使用神經(jīng)網(wǎng)絡(luò)進行簡單文本分類,幫助大家更好的理解和學習使用python,感興趣的朋友可以了解下
    2021-02-02
  • 淺談Python 責任鏈模式

    淺談Python 責任鏈模式

    本文主要介紹了淺談Python 責任鏈模式,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2023-04-04
  • Python實現(xiàn)telnet服務(wù)器的方法

    Python實現(xiàn)telnet服務(wù)器的方法

    這篇文章主要介紹了Python實現(xiàn)telnet服務(wù)器的方法,涉及Python通過Telnet連接服務(wù)器的相關(guān)技巧,具有一定參考借鑒價值,需要的朋友可以參考下
    2015-07-07
  • Python 如何安裝Selenium(推薦)

    Python 如何安裝Selenium(推薦)

    Selenium 是一個 Web的自動化測試工具 ,最初是為網(wǎng)站 自動化測試而開發(fā)的 , Selenium 可以直接調(diào)用瀏覽器 ,它支持所有主流的瀏覽器,本文給大家介紹Python 如何安裝Selenium,感興趣的朋友一起看看吧
    2021-05-05
  • pytest多重斷言的實現(xiàn)

    pytest多重斷言的實現(xiàn)

    本文主要介紹了pytest多重斷言的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2023-02-02

最新評論