使用Python對(duì)網(wǎng)易云歌單數(shù)據(jù)分析及可視化

更新時(shí)間：2023年03月22日 15:51:51 作者：Orange?202

這篇文章主要介紹了使用Python對(duì)網(wǎng)易云歌單數(shù)據(jù)分析及可視化，本項(xiàng)目以數(shù)據(jù)采集、處理、分析及數(shù)據(jù)可視化為項(xiàng)目流程,需要的朋友可以參考下

項(xiàng)目概述

1.1項(xiàng)目來(lái)源

網(wǎng)易云音樂(lè)是一款由網(wǎng)易開(kāi)發(fā)的音樂(lè)產(chǎn)品，是網(wǎng)易杭州研究院的成果，依托專(zhuān)業(yè)音樂(lè)人、DJ、好友推薦及社交功能，在線(xiàn)音樂(lè)服務(wù)主打歌單、社交、大牌推薦和音樂(lè)指紋，以歌單、DJ節(jié)目、社交、地理位置為核心要素，主打發(fā)現(xiàn)和分享。對(duì)網(wǎng)易云音樂(lè)官網(wǎng)歌單部分進(jìn)行爬取，對(duì)網(wǎng)易云音樂(lè)歌單進(jìn)行數(shù)據(jù)獲取，獲取某一歌曲風(fēng)格的所有歌單，并獲取歌單的名稱(chēng)、標(biāo)簽、介紹、收藏量、播放量、歌單收錄的歌曲數(shù)目，以及評(píng)論數(shù)。

1.2需求描述

對(duì)爬取到的數(shù)據(jù)進(jìn)行預(yù)處理，在對(duì)預(yù)處理的數(shù)據(jù)進(jìn)行分析，對(duì)歌單播放量、歌單收藏量、歌單評(píng)論量、歌單歌曲收錄情況，、歌單標(biāo)簽，歌單貢獻(xiàn)up主等進(jìn)行分析，并進(jìn)行可視化，將分析結(jié)果更直觀(guān)的反映出來(lái)。

數(shù)據(jù)獲取

2.1數(shù)據(jù)源的選取

聽(tīng)音樂(lè)音樂(lè)是當(dāng)今很多年輕人抒發(fā)情感的方式，網(wǎng)易云音樂(lè)是一個(gè)大眾化的音樂(lè)平臺(tái)，可以通過(guò)對(duì)網(wǎng)易云音樂(lè)的歌單情況進(jìn)行分析，從而了解到當(dāng)今社會(huì)年輕人所面對(duì)的問(wèn)題，以及各方面情感壓力；還可以了解到用戶(hù)的喜好，分析出什么樣的歌歌單最受大眾歡迎，還可以反應(yīng)大眾的喜好，對(duì)音樂(lè)創(chuàng)作人的創(chuàng)作也有著很重要的作用。從廣大普通用戶(hù)的角度來(lái)看，對(duì)于歌單的創(chuàng)建者，創(chuàng)建歌單一方面便于對(duì)自己收藏的音樂(lè)曲庫(kù)進(jìn)行分類(lèi)管理，另一方面，生產(chǎn)出優(yōu)質(zhì)的歌單可以凸顯自己的音樂(lè)品味，收獲點(diǎn)贊與評(píng)論，得到極大的成就感與滿(mǎn)足感。而對(duì)于歌單的消費(fèi)者來(lái)說(shuō)，基于“歌單”聽(tīng)歌可以大大地提升聽(tīng)歌的用戶(hù)體驗(yàn)。對(duì)于音樂(lè)人以及電臺(tái)主持等類(lèi)型的歌單創(chuàng)建者來(lái)講，通過(guò)“歌單”可以更好地傳播自己的音樂(lè)與作品，也可以更好地與粉絲互動(dòng)并擴(kuò)大知名度。

本次項(xiàng)目爬取的是網(wǎng)易云官網(wǎng)華語(yǔ)歌單部分的數(shù)據(jù)，爬取地址為：華語(yǔ)歌單 - 歌單 - 網(wǎng)易云音樂(lè)

2.2數(shù)據(jù)的獲取

2.2.1 設(shè)計(jì)

進(jìn)入每一個(gè)頁(yè)面，獲取該頁(yè)面的每一個(gè)歌單，進(jìn)入單個(gè)歌單中，歌單名，收藏量，評(píng)論數(shù)，標(biāo)簽，介紹，歌曲總數(shù)，播放量，收錄的歌名等數(shù)據(jù)都存放在網(wǎng)頁(yè)的同一個(gè)div內(nèi)，通過(guò)selector選擇器選擇各個(gè)內(nèi)容。

2.2.2 實(shí)現(xiàn)

from bs4 import BeautifulSoup  
import requests  
import time  
  
headers = {  
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'  
}  
  
for i in range(0, 1330, 35):  
    print(i)  
    time.sleep(2)  
    url = 'https://music.163.com/discover/playlist/?cat=華語(yǔ)&order=hot&limit=35&offset=' + str(i)#修改這里即可  
    response = requests.get(url=url, headers=headers)  
    html = response.text  
    soup = BeautifulSoup(html, 'html.parser')  
    # 獲取包含歌單詳情頁(yè)網(wǎng)址的標(biāo)簽  
    ids = soup.select('.dec a')  
    # 獲取包含歌單索引頁(yè)信息的標(biāo)簽  
    lis = soup.select('#m-pl-container li')  
    print(len(lis))  
    for j in range(len(lis)):  
        # 獲取歌單詳情頁(yè)地址  
        url = ids[j]['href']  
        # 獲取歌單標(biāo)題  
        title = ids[j]['title']  
        # 獲取歌單播放量  
        play = lis[j].select('.nb')[0].get_text()  
        # 獲取歌單貢獻(xiàn)者名字  
        user = lis[j].select('p')[1].select('a')[0].get_text()  
        # 輸出歌單索引頁(yè)信息  
        print(url, title, play, user)  
        # 將信息寫(xiě)入CSV文件中  
        with open('playlist.csv', 'a+', encoding='utf-8-sig') as f:  
            f.write(url + ',' + title + ',' + play + ',' + user + '\n')  
  
from bs4 import BeautifulSoup  
import pandas as pd  
import requests  
import time  
  
df = pd.read_csv('playlist.csv', header=None, error_bad_lines=False, names=['url', 'title', 'play', 'user'])  
  
headers = {  
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'  
}  
  
for i in df['url']:  
    time.sleep(2)  
    url = 'https://music.163.com' + i  
    response = requests.get(url=url, headers=headers)  
    html = response.text  
    soup = BeautifulSoup(html, 'html.parser')  
    # 獲取歌單標(biāo)題  
    title = soup.select('h2')[0].get_text().replace(',', '，')  
    # 獲取標(biāo)簽  
    tags = []  
    tags_message = soup.select('.u-tag i')  
    for p in tags_message:  
        tags.append(p.get_text())  
    # 對(duì)標(biāo)簽進(jìn)行格式化  
    if len(tags) > 1:  
        tag = '-'.join(tags)  
    else:  
        tag = tags[0]  
    # 獲取歌單介紹  
    if soup.select('#album-desc-more'):  
        text = soup.select('#album-desc-more')[0].get_text().replace('\n', '').replace(',', '，')  
    else:  
        text = '無(wú)'  
    # 獲取歌單收藏量  
    collection = soup.select('#content-operation i')[1].get_text().replace('(', '').replace(')', '')  
    # 歌單播放量  
    play = soup.select('.s-fc6')[0].get_text()  
    # 歌單內(nèi)歌曲數(shù)  
    songs = soup.select('#playlist-track-count')[0].get_text()  
    # 歌單評(píng)論數(shù)  
    comments = soup.select('#cnt_comment_count')[0].get_text()  
    # 輸出歌單詳情頁(yè)信息  
    print(title, tag, text, collection, play, songs, comments)  
    # 將詳情頁(yè)信息寫(xiě)入CSV文件中  
    with open('music_message.csv', 'a+', encoding='utf-8') as f:  
        # f.write(title + '/' + tag + '/' + text + '/' + collection + '/' + play + '/' + songs + '/' + comments + '\n')  
        f.write(title + ',' + tag + ',' + text + ',' + collection + ',' + play + ',' + songs + ',' + comments + '\n')

2.2.3 效果

將相關(guān)內(nèi)容存放至相應(yīng)的.csv文件中，music_message.csv文件中存放了獲取歌單的名稱(chēng)、標(biāo)簽、介紹、收藏量、播放量、歌單收錄的歌曲數(shù)目，以及評(píng)論數(shù)。playlist.csv文件中存放了歌單詳情頁(yè)地址，歌單標(biāo)題，歌單播放量，以及歌單貢獻(xiàn)者名字。結(jié)果如圖2-1、2-2所示。

圖2-1 music_message.csv文件內(nèi)容

圖2-2 playlist.csv文件內(nèi)容

數(shù)據(jù)預(yù)處理

關(guān)于數(shù)據(jù)的清洗，實(shí)際上在上一部分抓取數(shù)據(jù)的過(guò)程中已經(jīng)做了一部分，包括：后臺(tái)返回的空歌單信息、重復(fù)數(shù)據(jù)的去重等。除此之外，還要進(jìn)行一些清洗：將評(píng)論量數(shù)據(jù)統(tǒng)一格式等。

3.1 設(shè)計(jì)

將評(píng)論數(shù)中數(shù)據(jù)帶“萬(wàn)”的數(shù)據(jù)，用“0000”替換“萬(wàn)”便于后續(xù)的數(shù)據(jù)分析，將評(píng)論數(shù)中數(shù)據(jù)統(tǒng)計(jì)出錯(cuò)的數(shù)據(jù)用“0”填充，不參與后續(xù)統(tǒng)計(jì)。

3.2 實(shí)現(xiàn)

df['collection'] = df['collection'].astype('string').str.strip()  
df['collection'] = [int(str(i).replace('萬(wàn)','0000')) for i in df['collection']]  
df['text'] = [str(i)[3:] for i in df['text']]  
df['comments'] = [0 if '評(píng)論' in str(i).strip() else int(i) for i in df['comments']]

3.3 效果

圖3-1 程序運(yùn)行截圖

數(shù)據(jù)分析及可視化

4.1 歌單播放量Top10

4.1.1 實(shí)現(xiàn)

df_play = df[['title','play']].sort_values('play',ascending=False)  
df_play[:10]  
df_play = df_play[:10]  
_x = df_play['title'].tolist()  
_y = df_play['play'].tolist()  
df_play = get_matplot(x=_x,y=_y,chart='barh',title='網(wǎng)易云音樂(lè)華語(yǔ)歌單播放 TOP10',ha='left',size=8,color=color[0])  
df_play

4.1.2 結(jié)果

圖4-1 程序運(yùn)行結(jié)果截圖

4.1.3 可視化

圖4-2 網(wǎng)易云音樂(lè)華語(yǔ)歌單播放 TOP10

4.2 歌單收藏量Top10

4.2.1 實(shí)現(xiàn)

df_col = df[['title','collection']].sort_values('collection',ascending=False)  
df_col[:10]  
df_col = df_col[:10]  
_x = df_col['title'].tolist()  
_y = df_col['collection'].tolist()  
df_col = get_matplot(x=_x,y=_y,chart='barh',title='網(wǎng)易云音樂(lè)華語(yǔ)歌單收藏 TOP10',ha='left',size=8,color=color[1])  
df_col

4.2.2 結(jié)果

圖4-3 程序運(yùn)行結(jié)果截圖

4.2.3 可視化

圖4-4 網(wǎng)易云音樂(lè)華語(yǔ)歌單收藏 TOP10

4.3 歌單評(píng)論數(shù)Top10

4.3.1 實(shí)現(xiàn)

df_com = df[['title','comments']].sort_values('comments',ascending=False)  
df_com[:10]  
df_com = df_com[:10]  
_x = df_com['title'].tolist()  
_y = df_com['comments'].tolist()  
df_com = get_matplot(x=_x,y=_y,chart='barh',title='網(wǎng)易云音樂(lè)華語(yǔ)歌單評(píng)論數(shù) TOP10',ha='left',size=8,color=color[2])  
df_com

4.3.2 結(jié)果

圖4-5 程序運(yùn)行結(jié)果截圖

4.3.3 可視化

圖4-6 網(wǎng)易云音樂(lè)華語(yǔ)歌單評(píng)論 TOP10

4.4 歌單歌曲收錄情況分布

4.4.1 實(shí)現(xiàn)

df_songs = np.log(df['songs'])  
df_songs  
df_songs = get_matplot(x=0,y=df_songs,chart='hist',title='華語(yǔ)歌單歌曲收錄分布情況',ha='left',size=10,color=color[3])  
df_songs

4.4.2 效果及可視化

圖4-7 華語(yǔ)歌單收錄分布情況

4.4.3 分析

通過(guò)對(duì)柱形圖分析發(fā)現(xiàn)，歌單對(duì)歌曲的收錄情況多數(shù)集中在20-60首歌曲，至多超過(guò)80首，也存在空歌單現(xiàn)象，但絕大多數(shù)歌單收錄歌曲均超過(guò)10首左右。通過(guò)本次可視化分析可以使得后續(xù)創(chuàng)作者對(duì)自己創(chuàng)作歌單的歌曲收錄情況提供幫助。也能夠更受大眾歡迎。

4.5 歌單標(biāo)簽圖

4.5.1 實(shí)現(xiàn)

def get_tag(df):  
    df = df['tag'].str.split('-')  
    datalist = list(set(x for data in df for x in data))  
    return  datalist  
df_tag = get_tag(df)  
# df_tag  
def get_lx(x,i):  
    if i in str(x):  
        return 1  
    else:  
        return 0  
for i in list(df_tag):#這里的df['all_category'].unique()也可以自己用列表構(gòu)建，我這里是利用了前面獲得的  
    df[i] = df['tag'].apply(get_lx,i=f'{i}')  
# df.head()  
Series = df.iloc[:,7:].sum().sort_values(0,ascending=False)  
df_tag = [tag for tag in zip(Series.index.tolist(),Series.values.tolist())]  
df_tag[:10]  
df_iex = [index for index in Series.index.tolist()][:20]  
df_tag = [tag for tag in Series.values.tolist()][:20]  
df_tagiex = get_matplot(x=df_iex,y=df_tag,chart='plot',title='網(wǎng)易云音樂(lè)華語(yǔ)歌單標(biāo)簽圖',size=10,ha='center',color=color[3])  
df_tagiex

4.5.2 結(jié)果

圖4-8 華語(yǔ)歌單標(biāo)簽情況

4.5.3 可視化

圖4-9 歌單標(biāo)簽圖

4.5.4 分析

可以通過(guò)此標(biāo)簽圖看出歌單的風(fēng)格，可以分析出目前的主流歌曲的情感，以及大眾的需求，也網(wǎng)易云音樂(lè)用戶(hù)的音樂(lè)偏好，據(jù)此可以看出，網(wǎng)易云音樂(lè)用戶(hù)，在音樂(lè)偏好上比較多元化：國(guó)內(nèi)流行、歐美流行、電子、等各種風(fēng)格均有涉及。

4.6 歌單貢獻(xiàn)up主Top10

4.6.1 實(shí)現(xiàn)

df_user = pd.read_csv('playlist.csv',encoding="unicode_escape",header=0,names=['url','title','play','user'],sep=',')  
df_user.shape  
df_user = df_user.iloc[:,1:]  
df_user['count'] = 0  
df_user = df_user.groupby('user',as_index=False)['count'].count()  
df_user = df_user.sort_values('count',ascending=False)[:10]  
df_user  
df_user = df_user[:10]  
names = df_user['user'].tolist()  
nums = df_user['count'].tolist()  
df_u = get_matplot(x=names,y=nums,chart='barh',title='歌單貢獻(xiàn)UP主 TOP10',ha='left',size=10,color=color[4])  
df_u

4.6.2 結(jié)果

圖4-10 歌單貢獻(xiàn)up主前十

4.6.3 可視化

圖4-11 歌單貢獻(xiàn)up主Top10

4.7歌單名生成詞云

4.7.1 實(shí)現(xiàn)

import wordcloud  
import pandas as pd  
import numpy as np  
from PIL import Image  
data = pd.read_excel('music_message.xlsx')  
#根據(jù)播放量排序，只取前五十個(gè)  
data = data.sort_values('play',ascending=False).head(50)  
  
#font_path指明用什么樣的字體風(fēng)格，這里用的是電腦上都有的微軟雅黑  
w1 = wordcloud.WordCloud(width=1000,height=700,  
                         background_color='black',  
                         font_path='msyh.ttc')  
txt = "\n".join(i for i in data['title'])  
w1.generate(txt)  
w1.to_file('F:\\詞云.png')

4.7.2 結(jié)果及可視化

圖4-11 歌單名稱(chēng)生成的詞云

4.8 代碼實(shí)現(xiàn)

為了簡(jiǎn)化代碼，構(gòu)建了通用函數(shù)

get_matplot(x,y,chart,title,ha,size,color)

x表示充當(dāng)x軸數(shù)據(jù)；

y表示充當(dāng)y軸數(shù)據(jù)；

chart表示圖標(biāo)類(lèi)型，這里分為三種barh、hist、squarify.plot；

ha表示文本相對(duì)朝向；

size表示字體大小；

color表示圖表顏色；

def get_matplot(x,y,chart,title,ha,size,color):  
    # 設(shè)置圖片顯示屬性,字體及大小  
    plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']  
    plt.rcParams['font.size'] = size  
    plt.rcParams['axes.unicode_minus'] = False  
    # 設(shè)置圖片顯示屬性  
    fig = plt.figure(figsize=(16, 8), dpi=80)  
    ax = plt.subplot(1, 1, 1)  
    ax.patch.set_color('white')  
    # 設(shè)置坐標(biāo)軸屬性  
    lines = plt.gca()  
    # 設(shè)置顯示數(shù)據(jù)  
    if x ==0:  
        pass  
    else:  
        x.reverse()  
        y.reverse()  
        data = pd.Series(y, index=x)  
    # 設(shè)置坐標(biāo)軸顏色  
    lines.spines['right'].set_color('none')  
    lines.spines['top'].set_color('none')  
    lines.spines['left'].set_color((64/255, 64/255, 64/255))  
    lines.spines['bottom'].set_color((64/255, 64/255, 64/255))  
    # 設(shè)置坐標(biāo)軸刻度  
    lines.xaxis.set_ticks_position('none')  
    lines.yaxis.set_ticks_position('none')  
    if chart == 'barh':  
        # 繪制柱狀圖,設(shè)置柱狀圖顏色  
        data.plot.barh(ax=ax, width=0.7, alpha=0.7, color=color)  
        # 添加標(biāo)題,設(shè)置字體大小  
        ax.set_title(f'{title}', fontsize=18, fontweight='light')  
        # 添加歌曲出現(xiàn)次數(shù)文本  
        for x, y in enumerate(data.values):  
            plt.text(y+0.3, x-0.12, '%s' % y, ha=f'{ha}')  
    elif chart == 'hist':  
        # 繪制直方圖,設(shè)置柱狀圖顏色  
        ax.hist(y, bins=30, alpha=0.7, color=(21/255, 47/255, 71/255))  
        # 添加標(biāo)題,設(shè)置字體大小  
        ax.set_title(f'{title}', fontsize=18, fontweight='light')  
    elif chart == 'plot':  
        colors = ['#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
         '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
         '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
         '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
         '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
          '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
          '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff']  
        plot = squarify.plot(sizes=y, label=x, color=colors, alpha=1, value=y, edgecolor='white', linewidth=1.5)  
        # 設(shè)置標(biāo)簽大小為1  
        plt.rc('font', size=6)  
        # 設(shè)置標(biāo)題大小  
        plot.set_title(f'{title}', fontsize=13, fontweight='light')  
        # 除坐標(biāo)軸  
        plt.axis('off')  
        # 除上邊框和右邊框刻度  
        plt.tick_params(top=False, right=False)  
    # 顯示圖片  
    plt.show()  
#構(gòu)建color序列  
color = [(153/255, 0/255, 102/255),(8/255, 88/255, 121/255),(160/255, 102/255, 50/255),(136/255, 43/255, 48/255),(16/255, 152/255, 168/255),(153/255, 0/255, 102/255)]

結(jié)束語(yǔ)

我在完成大作業(yè)的過(guò)程中，學(xué)到了很多新的東西，也將本學(xué)期在課堂上學(xué)習(xí)的知識(shí)串聯(lián)了起來(lái)。碰到一些記憶模糊的問(wèn)題，通過(guò)翻看課本以及以往的直播回放也都能完美的解決而且加深了自己對(duì)這種問(wèn)題的印象，下次碰到同樣的問(wèn)題也可以給出解決辦法；碰到未涉及過(guò)的問(wèn)題，我積極在網(wǎng)絡(luò)上查找資料，對(duì)找到的解決辦法進(jìn)行實(shí)踐，直到可以真正的解決問(wèn)題。我知道每個(gè)人在實(shí)際操作過(guò)程中都會(huì)遇到各種各樣的問(wèn)題，也有自己不了解的領(lǐng)域，以及隨著網(wǎng)絡(luò)的發(fā)展，各種各樣的東西也不斷進(jìn)行著更新，我所獲取到的知識(shí)也需要更新，所以在網(wǎng)上準(zhǔn)確查找資料以及快速找到解決辦法這都是我們的必修課。

在本次作業(yè)完成過(guò)程中，我也遇到了很多問(wèn)題，例如數(shù)據(jù)爬取出現(xiàn)錯(cuò)誤，可視化失敗，代碼看不懂等問(wèn)題。遇到問(wèn)題后，我會(huì)先自己檢查一下我的代碼，發(fā)現(xiàn)錯(cuò)誤就及時(shí)修改，如果碰到無(wú)法解決的問(wèn)題，我會(huì)對(duì)程序運(yùn)行的報(bào)錯(cuò)信息進(jìn)行搜索，尋找這種錯(cuò)誤的解決辦法。在本次作業(yè)完成過(guò)程中很幸運(yùn)自己出現(xiàn)的問(wèn)題都得到了解決。

本次作業(yè)完成過(guò)程中，苦樂(lè)參雜，不斷的學(xué)習(xí)過(guò)程中，既有遇見(jiàn)問(wèn)題無(wú)法解決的緊張無(wú)措，也有著成功解決問(wèn)題的成就感。我自己也相應(yīng)的學(xué)到了許多知識(shí)，獲得了一定的技能。感謝老師及同學(xué)們提供的幫助，以后我會(huì)更加認(rèn)真，努力提高自己的能力，更努力的去學(xué)習(xí)python以及數(shù)據(jù)分析方面的技術(shù)。

到此這篇關(guān)于使用Python對(duì)網(wǎng)易云歌單數(shù)據(jù)分析及可視化的文章就介紹到這了,更多相關(guān)網(wǎng)易云歌單數(shù)據(jù)分析及可視化內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: