python爬取網(wǎng)易云音樂排行榜實(shí)例代碼
網(wǎng)易云音樂排行榜歌曲及評論爬取
主要注意問題:selenium 模擬登錄、iframe標(biāo)簽定位、頁面元素提取。
在利用selenium定位元素并取值的過程中遇到問題。比如xpath正確但無法定位,在進(jìn)行翻頁提取評論的過程中,利用selenium似乎不能提取不同頁的數(shù)據(jù),比如,明明定位的第三頁的評論數(shù)據(jù),而只能返回第一頁的評論數(shù)據(jù)。
一、模擬登錄
selenium 定位元素模擬人的操作進(jìn)行登錄,直接上代碼:
//模擬登錄 import pandas as pd from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.chrome.options import Options from selenium.webdriver import ActionChains from lxml import etree import time from datetime import datetime,timedelta wyy_url = 'https://music.163.com/' driver = webdriver.Chrome() driver.get(wyy_url) driver.maximize_window() #全屏 time.sleep(2) driver.find_element_by_xpath("http://a[@class = 'link s-fc3']").click() time.sleep(2) driver.find_element_by_xpath("http://a[@class='u-btn2 other']").click() #選擇其他方式登錄 #賬號、密碼登錄 driver.find_element_by_xpath("http://input[@type='checkbox']").click() #同意條款 time.sleep(0.5) driver.find_element_by_xpath("http://a[@class='u-btn2 u-btn2-2']").click() #選擇手機(jī)號密碼登錄 driver.find_element_by_xpath("http://a[@class='f-fr s-fc3 pwdlogin']").click() time.sleep(1) driver.find_element_by_id("p").send_keys('xxx') #這里輸入你的id driver.find_element_by_id("pw").send_keys('xxx') #這里輸入密碼 time.sleep(1) #點(diǎn)擊登錄 driver.find_element_by_xpath("http://a[@class='j-primary u-btn2 u-btn2-2']").click() time.sleep(1)
二、排行榜數(shù)據(jù)爬取
當(dāng)時嘗試直接用selenium定位標(biāo)簽取值,并沒有返回有效結(jié)果。在后面爬取評論時,也遇到此問題。于是先獲取頁面內(nèi)容在進(jìn)行分析。
// 排行榜 base_url = "https://music.163.com/#/discover/toplist?id=" bang_typical = {'飆升榜':19723756,'新歌榜':3779629,'原創(chuàng)榜':2884035,'熱歌榜':3778678} #選擇榜單 bang = input('請輸入榜單:') #構(gòu)造榜單對應(yīng)的鏈接 url = base_url + str(bang_typical[bang]) print('開始分析:-%s' %(bang)) #進(jìn)入榜單 driver.get(url) time.sleep(3) #iframe標(biāo)簽定位,必要的,否則無法定位其他標(biāo)簽 _iframe = driver.find_element_by_xpath("http://iframe[@id='g_iframe']") # 找到iframe標(biāo)簽 driver.switch_to.frame(_iframe) time.sleep(1) page_text = driver.execute_script("return document.documentElement.outerHTML") #獲取頁面 html = etree.HTML(page_text) trs = html.xpath('//tbody/tr') rank_list = [] title_list = [] span_list = [] singer_list = [] for tr in trs: rank = tr.xpath(".//span[@class='num']/text()")[0] #注意xpath獲取到的是列表,需提取其元素 title = tr.xpath(".//b/@title")[0] span = tr.xpath(".//td[@class=' s-fc3']/span[@class='u-dur ']/text()")[0] singer = tr.xpath(".//div[@class='text']/span/@title")[0] rank_list.append(rank) title_list.append(title) span_list.append(span) singer_list.append(singer) #輸出榜單結(jié)果 df_bang = pd.DataFrame({'排名':rank_list,'歌名':title_list,'時長':span_list,'歌手':singer_list})
三、排行榜評論獲取
主要是評論日期的格式轉(zhuǎn)換,評論內(nèi)容的清洗
// 評論 # 日期清洗函數(shù) def change_time(time): now = datetime.now() day_y = datetime.strftime(now - timedelta(1),'%Y-%m-%d') #計(jì)算昨天 day = now.strftime('%Y-%m-%d') year = now.strftime('%Y') if '年' in time: #非今年 new_time = time.replace('年','-').replace('月','-').replace('日','') elif '昨天' in time: new_time = time.replace('昨天',day_y+' ') elif '前' in time: #前天 minut = int(time[:time.index('分')]) new_time = (now + timedelta(minutes=-minut)).strftime('%Y-%m-%d %H:%M') elif len(time) == 5: #今天 new_time = day + ' ' + time else: #最近 **月**日 **:** y = '2021-' time = time.replace('月','-').replace('日','') new_time = y + time return new_time #評論清洗 def change_review(r): if ':' in r: r_ = r.split(':')[1] else: r_ = r return r_ #評論點(diǎn)贊 def change_likes(l): if l != []: l_ = int(l.split('(')[1].split(')')[0]) else: l_ = 0 return l_ #拉動滾動條至翻頁按鈕處 driver.execute_script("window.scrollTo(0,document.body.scrollHeight)") #獲取頁面信息 num = input('請輸入需要爬取的頁面總數(shù):') #想要爬取評論的頁數(shù), #這里的思路是先通過翻頁將獲取到的所有頁面的所有內(nèi)容存至列表,再對列表遍歷。 #因?yàn)楫?dāng)時直接用selenium 定位返回結(jié)果不對,當(dāng)然你們也可以用selenium直接試試。 html_list=[] for i in range(int(num)): page_text = driver.execute_script("return document.documentElement.outerHTML") html = etree.HTML(page_text)#獲取頁面 html_list.append(html) #翻頁 driver.find_elements_by_xpath("http://div[contains(@class,'u-page')]/a")[-1].click() time.sleep(4) WebDriverWait(driver, 300, 0.1).until(EC.presence_of_element_located((By.XPATH, "http://div[@class='cmmts j-flag']"))) print(f'第{i+1}頁爬取成功') rev_list=[] #所有評論的列表 dat_list=[] #對應(yīng)日期的列表 for review_page in html_list: raw_reviews = review_page.xpath("http://div[@class='cmmts j-flag']//div[@class='cnt f-brk']/text()")#提取頁面所有評論 raw_reviews_ = [i for i in raw_reviews if ":" in i] #保證長度一致 rv_date = review_page.xpath("http://div[@class='cmmts j-flag']//div[@class='cntwrap']/div[@class='rp']/div[@class='time s-fc4']/text()") review_list = [change_review(r) for r in raw_reviews_] date_list = [change_time(d) for d in rv_date] rev_list.extend(review_list) dat_list.extend(date_list) print('分析完成') driver.quit()
運(yùn)行結(jié)果:
1、排行榜:
2、評論:
總結(jié)
哈哈,用了快兩年的csdn, 光顧著白嫖文章。這也是我的第一個帖子,也沒啥經(jīng)驗(yàn),有啥問題的,還請各位指正!
到此這篇關(guān)于python爬取網(wǎng)易云音樂排行榜數(shù)據(jù)代碼的文章就介紹到這了,更多相關(guān)python爬取網(wǎng)易云內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python隨機(jī)數(shù)函數(shù)代碼實(shí)例解析
這篇文章主要介紹了Python隨機(jī)數(shù)函數(shù)代碼實(shí)例解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-02-02用ldap作為django后端用戶登錄驗(yàn)證的實(shí)現(xiàn)
這篇文章主要介紹了用ldap作為django后端用戶登錄驗(yàn)證的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-12-12解決Python requests庫編碼 socks5代理的問題
今天小編就為大家分享一篇解決Python requests庫編碼 socks5代理的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05pytorch實(shí)現(xiàn)mnist手寫彩色數(shù)字識別
這篇文章主要介紹了pytorch-實(shí)現(xiàn)mnist手寫彩色數(shù)字識別,文章圍繞主題展開詳細(xì)的內(nèi)容姐介紹,具有一定的參考價值,需要的小伙伴可以參考一下2022-09-09Python獲取網(wǎng)段內(nèi)ping通IP的方法
今天小編就為大家分享一篇Python獲取網(wǎng)段內(nèi)ping通IP的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-01-01pyinstaller打包可執(zhí)行程序過程中的常見錯誤解決
這篇文章主要介紹了pyinstaller打包可執(zhí)行程序過程中的常見錯誤解決,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-11-11Python腳本如何在bilibili中查找彈幕發(fā)送者
這篇文章主要介紹了如何在bilibili中查找彈幕發(fā)送者,本文給大家分享小編寫的一個python腳本來實(shí)現(xiàn)bilibili彈幕發(fā)送者,需要的朋友可以參考下2020-06-06