欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python3 實(shí)現(xiàn)爬取TOP500的音樂信息并存儲(chǔ)到mongoDB數(shù)據(jù)庫中

 更新時(shí)間:2019年08月24日 09:22:07   作者:shawn xie123  
今天小編就為大家分享一篇python3 實(shí)現(xiàn)爬取TOP500的音樂信息并存儲(chǔ)到mongoDB數(shù)據(jù)庫中,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧

爬取TOP500的音樂信息,包括排名情況、歌曲名、歌曲時(shí)間。

網(wǎng)頁版酷狗不能手動(dòng)翻頁進(jìn)行下一步的瀏覽,仔細(xì)觀察第一頁的URL:

http://www.kugou.com/yy/rank/home/1-8888.html

這里嘗試將1改為2,再進(jìn)行瀏覽,恰好是第二頁的信息,再改為3,恰好是第三頁的信息,多次嘗試發(fā)現(xiàn)不同的數(shù)字即為不同的頁面。因此只需更改home/后面的數(shù)字即可。由于每頁顯示的為22首歌曲,所以總共需要23個(gè)URL。

import requests
from bs4 import BeautifulSoup
from time import sleep
import pymongo
#連接數(shù)據(jù)庫
client = pymongo.MongoClient(‘localhost',27017)
mydb = client[‘yourdb']
#創(chuàng)建數(shù)據(jù)庫
musicTop = mydb[‘musicTop']

#使用header是用于偽裝為瀏覽器,讓爬蟲更穩(wěn)定
Headers = {
‘User-Agent': ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
}
#定義獲取信息的函數(shù)
def get_info(url):
wd_data = requests.get(url,headers=Headers)
soup = BeautifulSoup(wd_data.text,‘lxml')
#獲取排名情況
ranks = soup.select(‘span.pc_temp_num')
#獲取標(biāo)題
titles = soup.select(‘div.pc_temp_songlist > ul > li > a')
#獲取時(shí)間
times = soup.select(‘span.pc_temp_tips_r > span')
for rank,title,time in zip(ranks,titles,times):
data = {
‘rank':rank.get_text().strip(),
‘singer':title.get_text(),
‘song':title.get_text(),
‘time':time.get_text().strip()
}
musicTop.insert_one(data) #存入數(shù)據(jù)庫中
if name == ‘main':
urls = [‘http://www.kugou.com/yy/rank/home/{}-8888.html'.format(number) for number in range(1,24)]
for url in urls:
get_info(url)
sleep(2)

運(yùn)行后,爬取的數(shù)據(jù)在mongoDB數(shù)據(jù)庫中顯示如下:

以上這篇python3 實(shí)現(xiàn)爬取TOP500的音樂信息并存儲(chǔ)到mongoDB數(shù)據(jù)庫中就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • kali最新國內(nèi)更新源sources

    kali最新國內(nèi)更新源sources

    這篇文章主要介紹了kali最新國內(nèi)更新源sources的相關(guān)資料,需要的朋友可以參考下
    2023-03-03
  • Tensorflow累加的實(shí)現(xiàn)案例

    Tensorflow累加的實(shí)現(xiàn)案例

    今天小編就為大家分享一篇Tensorflow累加的實(shí)現(xiàn)案例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • python三大器之裝飾器詳解

    python三大器之裝飾器詳解

    這篇文章主要介紹了Python中的裝飾器,涉及到Python中很多重要的特性,小編覺得這篇文章寫的還不錯(cuò),需要的朋友可以參考下
    2021-10-10
  • Python+OpenCV之直方圖均衡化詳解

    Python+OpenCV之直方圖均衡化詳解

    直方圖均衡化是一種增強(qiáng)圖像對比度的方法,其主要思想是將一副圖像的直方圖分布變成近似均勻分布,從而增強(qiáng)圖像的對比度。本文將通過示例為大家講講直方圖均衡化的原理與實(shí)現(xiàn),感興趣的可以了解一下
    2022-09-09
  • pandas行和列的獲取的實(shí)現(xiàn)

    pandas行和列的獲取的實(shí)現(xiàn)

    本文主要介紹了pandas行和列的獲取的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-01-01
  • Python時(shí)間處理模塊Time和DateTime

    Python時(shí)間處理模塊Time和DateTime

    這篇文章主要為大家介紹了Python時(shí)間處理模塊Time和DateTime使用示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-06-06
  • Django實(shí)現(xiàn)任意文件上傳(最簡單的方法)

    Django實(shí)現(xiàn)任意文件上傳(最簡單的方法)

    這篇文章主要介紹了Django實(shí)現(xiàn)任意文件上傳,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-06-06
  • python學(xué)習(xí)實(shí)操案例(五)

    python學(xué)習(xí)實(shí)操案例(五)

    這篇文章主要介紹了pyth學(xué)習(xí)實(shí)操案例,主要分享的小練習(xí)有我的咖啡館你做主、顯示2019中超聯(lián)賽中前五名排行、模擬手機(jī)通訊錄,適合初學(xué)者,需要的小伙伴可以參考一下
    2022-02-02
  • 基于pytorch的RNN實(shí)現(xiàn)字符級姓氏文本分類的示例代碼

    基于pytorch的RNN實(shí)現(xiàn)字符級姓氏文本分類的示例代碼

    當(dāng)使用基于PyTorch的RNN實(shí)現(xiàn)字符級姓氏文本分類時(shí),我們可以使用一個(gè)非常簡單的RNN模型來處理輸入的字符序列,并將其應(yīng)用于姓氏分類任務(wù),本文給大家舉了一個(gè)基本的示例代碼,需要的朋友可以參考下
    2023-12-12
  • python生成ppt的方法

    python生成ppt的方法

    這篇文章主要為大家詳細(xì)介紹了python生成ppt的方法,通過python生成ppt文件,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-06-06

最新評論