快捷導(dǎo)航

python正則匹配抓取豆瓣電影鏈接和評論代碼分享

更新時間：2013年12月27日 09:52:27 作者：

抓取豆瓣各類型電影的鏈接和評論，按評分排列

import urllib.request
import re
import time

def movie(movieTag):

    tagUrl=urllib.request.urlopen(url)
    tagUrl_read = tagUrl.read().decode('utf-8')
    return tagUrl_read

def subject(tagUrl_read):

    '''
        這里還存在問題：
        ①這只針對單獨的一頁進行排序，而沒有對全部頁面的電影進行排序
        ②下次更新添加電影鏈接，考慮添加電影海報
        ③需要追加列表
        ④導(dǎo)入到本地txt或excel中
        ⑤在匹配電影名字時是否可以同時匹配鏈接與名字、評分、評論組成數(shù)組
        ⑥
    '''
#正則表達式匹配電影的名字（鏈接）、評分與評論
    nameURL = re.findall(r'(http://movie.douban.com/subject/[0-9.]+)\/"\s+title="(.+)"',tagUrl_read)
    scoreURL = re.findall(r'<span\s+class="rating_nums">([0-9.]+)<\/span>',tagUrl_read)
    evaluateURL = re.findall(r'<span\s+class="pl">\((\w+)人評價\)<\/span>',tagUrl_read)
    movieLists = list(zip(nameURL,scoreURL,evaluateURL))
    newlist.extend(movieLists)
    return newlist

#用quote處理特殊（中文）字符
movie_type = urllib.request.quote(input('請輸入電影類型(如劇情、喜劇、懸疑)：'))
page_end=int(input('請輸入搜索結(jié)束時的頁碼：'))
num_end=page_end*20
num=0
page_num=1
newlist=[]
while num<num_end:
    url=r'http://movie.douban.com/tag/%s?start=%d'%(movie_type,num)
    movie_url = movie(url)
    subject_url=subject(movie_url)
    num=page_num*20
    page_num+=1
else:
    #使用sorted函數(shù)對列表進行排列，reverse參數(shù)為True時升序，默認或False時為降序， key=lambda還不是很明白這里的原理
    movieLIST = sorted(newlist, key=lambda movieList : movieList[1],reverse = True)
    for movie in movieLIST:
        print(movie)

time.sleep(3)

print('結(jié)束')

您可能感興趣的文章:

相關(guān)文章

python中opencv?Canny邊緣檢測
這篇文章主要介紹了python中opencv?Canny邊緣檢測，Canny邊緣檢測是一種使用多級邊緣檢測算法檢測邊緣的方法。OpenCV提供了函數(shù)cv2.Canny()實現(xiàn)Canny邊緣檢測。更多相關(guān)內(nèi)容需要的小伙伴可以參考下面文章內(nèi)容
2022-06-06
Python 如何讀取字典的所有鍵-值對
這篇文章主要介紹了Python 讀取字典的所有鍵-值對操作，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2021-05-05
Django 實現(xiàn)將圖片轉(zhuǎn)為Base64,然后使用json傳輸
這篇文章主要介紹了Django 實現(xiàn)將圖片轉(zhuǎn)為Base64,然后使用json傳輸，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-03-03
解決Python串口接收無標識不定長數(shù)據(jù)
這篇文章主要介紹了解決Python串口接收無標識不定長數(shù)據(jù)問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2023-09-09
如何用python繪制雷達圖
這篇文章主要介紹了如何用python繪制雷達圖，幫助大家更好的利用python進行數(shù)據(jù)分析，感興趣的朋友可以了解下
2021-04-04
Python如何使用神經(jīng)網(wǎng)絡(luò)進行簡單文本分類
這篇文章主要介紹了Python如何使用神經(jīng)網(wǎng)絡(luò)進行簡單文本分類，幫助大家更好的理解和學習使用python，感興趣的朋友可以了解下
2021-02-02
淺談Python 責任鏈模式
本文主要介紹了淺談Python 責任鏈模式，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2023-04-04
Python實現(xiàn)telnet服務(wù)器的方法
這篇文章主要介紹了Python實現(xiàn)telnet服務(wù)器的方法,涉及Python通過Telnet連接服務(wù)器的相關(guān)技巧,具有一定參考借鑒價值,需要的朋友可以參考下
2015-07-07
Python 如何安裝Selenium(推薦)
Selenium 是一個 Web的自動化測試工具，最初是為網(wǎng)站自動化測試而開發(fā)的， Selenium 可以直接調(diào)用瀏覽器，它支持所有主流的瀏覽器，本文給大家介紹Python 如何安裝Selenium，感興趣的朋友一起看看吧
2021-05-05
pytest多重斷言的實現(xiàn)
本文主要介紹了pytest多重斷言的實現(xiàn)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2023-02-02