使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化
項目概述
1.1項目來源
網(wǎng)易云音樂是一款由網(wǎng)易開發(fā)的音樂產(chǎn)品,是網(wǎng)易杭州研究院的成果 ,依托專業(yè)音樂人、DJ、好友推薦及社交功能,在線音樂服務主打歌單、社交、大牌推薦和音樂指紋,以歌單、DJ節(jié)目、社交、地理位置為核心要素,主打發(fā)現(xiàn)和分享。對網(wǎng)易云音樂官網(wǎng)歌單部分進行爬取,對網(wǎng)易云音樂歌單進行數(shù)據(jù)獲取,獲取某一歌曲風格的所有歌單,并獲取歌單的名稱、標簽、介紹、收藏量、播放量、歌單收錄的歌曲數(shù)目,以及評論數(shù)。
1.2需求描述
對爬取到的數(shù)據(jù)進行預處理,在對預處理的數(shù)據(jù)進行分析,對歌單播放量、歌單收藏量、歌單評論量、歌單歌曲收錄情況,、歌單標簽,歌單貢獻up主等進行分析,并進行可視化,將分析結(jié)果更直觀的反映出來。
數(shù)據(jù)獲取
2.1數(shù)據(jù)源的選取
聽音樂音樂是當今很多年輕人抒發(fā)情感的方式,網(wǎng)易云音樂是一個大眾化的音樂平臺,可以通過對網(wǎng)易云音樂的歌單情況進行分析,從而了解到當今社會年輕人所面對的問題,以及各方面情感壓力;還可以了解到用戶的喜好,分析出什么樣的歌歌單最受大眾歡迎,還可以反應大眾的喜好,對音樂創(chuàng)作人的創(chuàng)作也有著很重要的作用。從廣大普通用戶的角度來看,對于歌單的創(chuàng)建者,創(chuàng)建歌單一方面便于對自己收藏的音樂曲庫進行分類管理,另一方面,生產(chǎn)出優(yōu)質(zhì)的歌單可以凸顯自己的音樂品味,收獲點贊與評論,得到極大的成就感與滿足感。而對于歌單的消費者來說,基于“歌單”聽歌可以大大地提升聽歌的用戶體驗。對于音樂人以及電臺主持等類型的歌單創(chuàng)建者來講,通過“歌單”可以更好地傳播自己的音樂與作品,也可以更好地與粉絲互動并擴大知名度。
本次項目爬取的是網(wǎng)易云官網(wǎng)華語歌單部分的數(shù)據(jù),爬取地址為:華語歌單 - 歌單 - 網(wǎng)易云音樂
2.2數(shù)據(jù)的獲取
2.2.1 設(shè)計
進入每一個頁面,獲取該頁面的每一個歌單,進入單個歌單中,歌單名,收藏量,評論數(shù),標簽,介紹,歌曲總數(shù),播放量,收錄的歌名等數(shù)據(jù)都存放在網(wǎng)頁的同一個div內(nèi),通過selector選擇器選擇各個內(nèi)容。
2.2.2 實現(xiàn)
from bs4 import BeautifulSoup
import requests
import time
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
for i in range(0, 1330, 35):
print(i)
time.sleep(2)
url = 'https://music.163.com/discover/playlist/?cat=華語&order=hot&limit=35&offset=' + str(i)#修改這里即可
response = requests.get(url=url, headers=headers)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
# 獲取包含歌單詳情頁網(wǎng)址的標簽
ids = soup.select('.dec a')
# 獲取包含歌單索引頁信息的標簽
lis = soup.select('#m-pl-container li')
print(len(lis))
for j in range(len(lis)):
# 獲取歌單詳情頁地址
url = ids[j]['href']
# 獲取歌單標題
title = ids[j]['title']
# 獲取歌單播放量
play = lis[j].select('.nb')[0].get_text()
# 獲取歌單貢獻者名字
user = lis[j].select('p')[1].select('a')[0].get_text()
# 輸出歌單索引頁信息
print(url, title, play, user)
# 將信息寫入CSV文件中
with open('playlist.csv', 'a+', encoding='utf-8-sig') as f:
f.write(url + ',' + title + ',' + play + ',' + user + '\n')
from bs4 import BeautifulSoup
import pandas as pd
import requests
import time
df = pd.read_csv('playlist.csv', header=None, error_bad_lines=False, names=['url', 'title', 'play', 'user'])
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
for i in df['url']:
time.sleep(2)
url = 'https://music.163.com' + i
response = requests.get(url=url, headers=headers)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
# 獲取歌單標題
title = soup.select('h2')[0].get_text().replace(',', ',')
# 獲取標簽
tags = []
tags_message = soup.select('.u-tag i')
for p in tags_message:
tags.append(p.get_text())
# 對標簽進行格式化
if len(tags) > 1:
tag = '-'.join(tags)
else:
tag = tags[0]
# 獲取歌單介紹
if soup.select('#album-desc-more'):
text = soup.select('#album-desc-more')[0].get_text().replace('\n', '').replace(',', ',')
else:
text = '無'
# 獲取歌單收藏量
collection = soup.select('#content-operation i')[1].get_text().replace('(', '').replace(')', '')
# 歌單播放量
play = soup.select('.s-fc6')[0].get_text()
# 歌單內(nèi)歌曲數(shù)
songs = soup.select('#playlist-track-count')[0].get_text()
# 歌單評論數(shù)
comments = soup.select('#cnt_comment_count')[0].get_text()
# 輸出歌單詳情頁信息
print(title, tag, text, collection, play, songs, comments)
# 將詳情頁信息寫入CSV文件中
with open('music_message.csv', 'a+', encoding='utf-8') as f:
# f.write(title + '/' + tag + '/' + text + '/' + collection + '/' + play + '/' + songs + '/' + comments + '\n')
f.write(title + ',' + tag + ',' + text + ',' + collection + ',' + play + ',' + songs + ',' + comments + '\n') 2.2.3 效果
將相關(guān)內(nèi)容存放至相應的.csv文件中,music_message.csv文件中存放了獲取歌單的名稱、標簽、介紹、收藏量、播放量、歌單收錄的歌曲數(shù)目,以及評論數(shù)。playlist.csv文件中存放了歌單詳情頁地址,歌單標題,歌單播放量,以及歌單貢獻者名字。結(jié)果如圖2-1、2-2所示。

圖2-1 music_message.csv文件內(nèi)容

圖2-2 playlist.csv文件內(nèi)容
數(shù)據(jù)預處理
關(guān)于數(shù)據(jù)的清洗,實際上在上一部分抓取數(shù)據(jù)的過程中已經(jīng)做了一部分,包括:后臺返回的空歌單信息、重復數(shù)據(jù)的去重等。除此之外,還要進行一些清洗:將評論量數(shù)據(jù)統(tǒng)一格式等。
3.1 設(shè)計
將評論數(shù)中數(shù)據(jù)帶“萬”的數(shù)據(jù),用“0000”替換“萬”便于后續(xù)的數(shù)據(jù)分析,將評論數(shù)中數(shù)據(jù)統(tǒng)計出錯的數(shù)據(jù)用“0”填充,不參與后續(xù)統(tǒng)計。
3.2 實現(xiàn)
df['collection'] = df['collection'].astype('string').str.strip()
df['collection'] = [int(str(i).replace('萬','0000')) for i in df['collection']]
df['text'] = [str(i)[3:] for i in df['text']]
df['comments'] = [0 if '評論' in str(i).strip() else int(i) for i in df['comments']] 3.3 效果

圖3-1 程序運行截圖
數(shù)據(jù)分析及可視化
4.1 歌單播放量Top10
4.1.1 實現(xiàn)
df_play = df[['title','play']].sort_values('play',ascending=False)
df_play[:10]
df_play = df_play[:10]
_x = df_play['title'].tolist()
_y = df_play['play'].tolist()
df_play = get_matplot(x=_x,y=_y,chart='barh',title='網(wǎng)易云音樂華語歌單播放 TOP10',ha='left',size=8,color=color[0])
df_play 4.1.2 結(jié)果

圖4-1 程序運行結(jié)果截圖
4.1.3 可視化

圖4-2 網(wǎng)易云音樂華語歌單播放 TOP10
4.2 歌單收藏量Top10
4.2.1 實現(xiàn)
df_col = df[['title','collection']].sort_values('collection',ascending=False)
df_col[:10]
df_col = df_col[:10]
_x = df_col['title'].tolist()
_y = df_col['collection'].tolist()
df_col = get_matplot(x=_x,y=_y,chart='barh',title='網(wǎng)易云音樂華語歌單收藏 TOP10',ha='left',size=8,color=color[1])
df_col 4.2.2 結(jié)果

圖4-3 程序運行結(jié)果截圖
4.2.3 可視化

圖4-4 網(wǎng)易云音樂華語歌單收藏 TOP10
4.3 歌單評論數(shù)Top10
4.3.1 實現(xiàn)
df_com = df[['title','comments']].sort_values('comments',ascending=False)
df_com[:10]
df_com = df_com[:10]
_x = df_com['title'].tolist()
_y = df_com['comments'].tolist()
df_com = get_matplot(x=_x,y=_y,chart='barh',title='網(wǎng)易云音樂華語歌單評論數(shù) TOP10',ha='left',size=8,color=color[2])
df_com 4.3.2 結(jié)果

圖4-5 程序運行結(jié)果截圖
4.3.3 可視化

圖4-6 網(wǎng)易云音樂華語歌單評論 TOP10
4.4 歌單歌曲收錄情況分布
4.4.1 實現(xiàn)
df_songs = np.log(df['songs']) df_songs df_songs = get_matplot(x=0,y=df_songs,chart='hist',title='華語歌單歌曲收錄分布情況',ha='left',size=10,color=color[3]) df_songs
4.4.2 效果及可視化

圖4-7 華語歌單收錄分布情況
4.4.3 分析
通過對柱形圖分析發(fā)現(xiàn),歌單對歌曲的收錄情況多數(shù)集中在20-60首歌曲,至多超過80首,也存在空歌單現(xiàn)象,但絕大多數(shù)歌單收錄歌曲均超過10首左右。通過本次可視化分析可以使得后續(xù)創(chuàng)作者對自己創(chuàng)作歌單的歌曲收錄情況提供幫助。也能夠更受大眾歡迎。
4.5 歌單標簽圖
4.5.1 實現(xiàn)
def get_tag(df):
df = df['tag'].str.split('-')
datalist = list(set(x for data in df for x in data))
return datalist
df_tag = get_tag(df)
# df_tag
def get_lx(x,i):
if i in str(x):
return 1
else:
return 0
for i in list(df_tag):#這里的df['all_category'].unique()也可以自己用列表構(gòu)建,我這里是利用了前面獲得的
df[i] = df['tag'].apply(get_lx,i=f'{i}')
# df.head()
Series = df.iloc[:,7:].sum().sort_values(0,ascending=False)
df_tag = [tag for tag in zip(Series.index.tolist(),Series.values.tolist())]
df_tag[:10]
df_iex = [index for index in Series.index.tolist()][:20]
df_tag = [tag for tag in Series.values.tolist()][:20]
df_tagiex = get_matplot(x=df_iex,y=df_tag,chart='plot',title='網(wǎng)易云音樂華語歌單標簽圖',size=10,ha='center',color=color[3])
df_tagiex 4.5.2 結(jié)果

圖4-8 華語歌單標簽情況
4.5.3 可視化

圖4-9 歌單標簽圖
4.5.4 分析
可以通過此標簽圖看出歌單的風格,可以分析出目前的主流歌曲的情感,以及大眾的需求,也網(wǎng)易云音樂用戶的音樂偏好,據(jù)此可以看出,網(wǎng)易云音樂用戶,在音樂偏好上比較多元化:國內(nèi)流行、歐美流行、電子、 等各種風格均有涉及。
4.6 歌單貢獻up主Top10
4.6.1 實現(xiàn)
df_user = pd.read_csv('playlist.csv',encoding="unicode_escape",header=0,names=['url','title','play','user'],sep=',')
df_user.shape
df_user = df_user.iloc[:,1:]
df_user['count'] = 0
df_user = df_user.groupby('user',as_index=False)['count'].count()
df_user = df_user.sort_values('count',ascending=False)[:10]
df_user
df_user = df_user[:10]
names = df_user['user'].tolist()
nums = df_user['count'].tolist()
df_u = get_matplot(x=names,y=nums,chart='barh',title='歌單貢獻UP主 TOP10',ha='left',size=10,color=color[4])
df_u 4.6.2 結(jié)果

圖4-10 歌單貢獻up主前十
4.6.3 可視化

圖4-11 歌單貢獻up主Top10
4.7歌單名生成詞云
4.7.1 實現(xiàn)
import wordcloud
import pandas as pd
import numpy as np
from PIL import Image
data = pd.read_excel('music_message.xlsx')
#根據(jù)播放量排序,只取前五十個
data = data.sort_values('play',ascending=False).head(50)
#font_path指明用什么樣的字體風格,這里用的是電腦上都有的微軟雅黑
w1 = wordcloud.WordCloud(width=1000,height=700,
background_color='black',
font_path='msyh.ttc')
txt = "\n".join(i for i in data['title'])
w1.generate(txt)
w1.to_file('F:\\詞云.png') 4.7.2 結(jié)果及可視化

圖4-11 歌單名稱生成的詞云
4.8 代碼實現(xiàn)
為了簡化代碼,構(gòu)建了通用函數(shù)
get_matplot(x,y,chart,title,ha,size,color)
x表示充當x軸數(shù)據(jù);
y表示充當y軸數(shù)據(jù);
chart表示圖標類型,這里分為三種barh、hist、squarify.plot;
ha表示文本相對朝向;
size表示字體大?。?/p>
color表示圖表顏色;
def get_matplot(x,y,chart,title,ha,size,color):
# 設(shè)置圖片顯示屬性,字體及大小
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['font.size'] = size
plt.rcParams['axes.unicode_minus'] = False
# 設(shè)置圖片顯示屬性
fig = plt.figure(figsize=(16, 8), dpi=80)
ax = plt.subplot(1, 1, 1)
ax.patch.set_color('white')
# 設(shè)置坐標軸屬性
lines = plt.gca()
# 設(shè)置顯示數(shù)據(jù)
if x ==0:
pass
else:
x.reverse()
y.reverse()
data = pd.Series(y, index=x)
# 設(shè)置坐標軸顏色
lines.spines['right'].set_color('none')
lines.spines['top'].set_color('none')
lines.spines['left'].set_color((64/255, 64/255, 64/255))
lines.spines['bottom'].set_color((64/255, 64/255, 64/255))
# 設(shè)置坐標軸刻度
lines.xaxis.set_ticks_position('none')
lines.yaxis.set_ticks_position('none')
if chart == 'barh':
# 繪制柱狀圖,設(shè)置柱狀圖顏色
data.plot.barh(ax=ax, width=0.7, alpha=0.7, color=color)
# 添加標題,設(shè)置字體大小
ax.set_title(f'{title}', fontsize=18, fontweight='light')
# 添加歌曲出現(xiàn)次數(shù)文本
for x, y in enumerate(data.values):
plt.text(y+0.3, x-0.12, '%s' % y, ha=f'{ha}')
elif chart == 'hist':
# 繪制直方圖,設(shè)置柱狀圖顏色
ax.hist(y, bins=30, alpha=0.7, color=(21/255, 47/255, 71/255))
# 添加標題,設(shè)置字體大小
ax.set_title(f'{title}', fontsize=18, fontweight='light')
elif chart == 'plot':
colors = ['#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',
'#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',
'#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',
'#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',
'#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',
'#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',
'#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff']
plot = squarify.plot(sizes=y, label=x, color=colors, alpha=1, value=y, edgecolor='white', linewidth=1.5)
# 設(shè)置標簽大小為1
plt.rc('font', size=6)
# 設(shè)置標題大小
plot.set_title(f'{title}', fontsize=13, fontweight='light')
# 除坐標軸
plt.axis('off')
# 除上邊框和右邊框刻度
plt.tick_params(top=False, right=False)
# 顯示圖片
plt.show()
#構(gòu)建color序列
color = [(153/255, 0/255, 102/255),(8/255, 88/255, 121/255),(160/255, 102/255, 50/255),(136/255, 43/255, 48/255),(16/255, 152/255, 168/255),(153/255, 0/255, 102/255)] 結(jié)束語
我在完成大作業(yè)的過程中,學到了很多新的東西,也將本學期在課堂上學習的知識串聯(lián)了起來。碰到一些記憶模糊的問題,通過翻看課本以及以往的直播回放也都能完美的解決而且加深了自己對這種問題的印象,下次碰到同樣的問題也可以給出解決辦法;碰到未涉及過的問題,我積極在網(wǎng)絡(luò)上查找資料,對找到的解決辦法進行實踐,直到可以真正的解決問題。我知道每個人在實際操作過程中都會遇到各種各樣的問題,也有自己不了解的領(lǐng)域,以及隨著網(wǎng)絡(luò)的發(fā)展,各種各樣的東西也不斷進行著更新,我所獲取到的知識也需要更新,所以在網(wǎng)上準確查找資料以及快速找到解決辦法這都是我們的必修課。
在本次作業(yè)完成過程中,我也遇到了很多問題,例如數(shù)據(jù)爬取出現(xiàn)錯誤,可視化失敗,代碼看不懂等問題。遇到問題后,我會先自己檢查一下我的代碼,發(fā)現(xiàn)錯誤就及時修改,如果碰到無法解決的問題,我會對程序運行的報錯信息進行搜索,尋找這種錯誤的解決辦法。在本次作業(yè)完成過程中很幸運自己出現(xiàn)的問題都得到了解決。
本次作業(yè)完成過程中,苦樂參雜,不斷的學習過程中,既有遇見問題無法解決的緊張無措,也有著成功解決問題的成就感。我自己也相應的學到了許多知識,獲得了一定的技能。感謝老師及同學們提供的幫助,以后我會更加認真,努力提高自己的能力,更努力的去學習python以及數(shù)據(jù)分析方面的技術(shù)。
到此這篇關(guān)于使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化的文章就介紹到這了,更多相關(guān)網(wǎng)易云歌單數(shù)據(jù)分析及可視化內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
運行獨立 pyspark 時出現(xiàn) Windows 錯誤解決辦法
在本篇文章里小編給大家分享的是一篇關(guān)于運行獨立 pyspark 時出現(xiàn) Windows 錯誤解決辦法,對此有需求的方法可以參考下。2021-12-12
Python數(shù)組拼接np.concatenate實現(xiàn)過程
這篇文章主要介紹了Python數(shù)組拼接np.concatenate實現(xiàn)過程,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-04-04
簡單談談Python中的幾種常見的數(shù)據(jù)類型
Python 中的變量不需要聲明。每個變量在使用前都必須賦值,變量賦值以后該變量才會被創(chuàng)建。在 Python 中,變量就是變量,它沒有類型,我們所說的"類型"是變量所指的內(nèi)存中對象的類型。2017-02-02
Python爬取數(shù)據(jù)并寫入MySQL數(shù)據(jù)庫的實例
今天小編就為大家分享一篇Python爬取數(shù)據(jù)并寫入MySQL數(shù)據(jù)庫的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-06-06
python獲取異常信息exc_info和print_exc的使用
python通過sys.exc_info獲取異常信息,通過traceback.print_exc打印堆棧信息,包括錯誤類型和錯誤位置等信息,本文就來介紹一下具體用法,感興趣的可以了解一下2023-12-12

