快捷導(dǎo)航

Python無損音樂搜索引擎實(shí)現(xiàn)代碼

更新時(shí)間：2018年02月02日 11:10:41 投稿：mrr

這篇文章主要介紹了Python無損音樂搜索引擎的實(shí)現(xiàn)代碼，非常不錯(cuò)，具有參考借鑒價(jià)值,需要的朋友可以參考下

研究了一段時(shí)間酷狗音樂的接口，完美破解了其vip音樂下載方式，想著能更好的追求開源，故寫下此篇文章，本文僅供學(xué)習(xí)參考。雖然沒什么技術(shù)含量，但都是自己一點(diǎn)一點(diǎn)碼出來，一點(diǎn)一點(diǎn)抓出來的。

一、綜述:

根據(jù)酷狗的搜索接口以及無損音樂下載接口，做出爬蟲系統(tǒng)。采用flask框架，前端提取搜索關(guān)鍵字，后端調(diào)用爬蟲系統(tǒng)采集數(shù)據(jù)，并將數(shù)據(jù)前端呈現(xiàn)；

運(yùn)行環(huán)境：windows/linux python2.7

二、爬蟲開發(fā):

通過抓包的方式對酷狗客戶端進(jìn)行抓包，抓到兩個(gè)接口：

1、搜索接口:

http://songsearch.kugou.com/song_search_v2?keyword={關(guān)鍵字}page=1

這個(gè)接口通過傳遞關(guān)鍵字，其返回的是一段json數(shù)據(jù)，數(shù)據(jù)包含音樂名稱、歌手、專輯、總數(shù)據(jù)量等信息，當(dāng)然最重要的是數(shù)據(jù)包含音樂各個(gè)品質(zhì)的hash。

默認(rèn)接口返回的數(shù)據(jù)只包含30首音樂，為了能拿到所有的數(shù)據(jù)，只需要把pagesize更改就可以，所以我提取了總數(shù)據(jù)數(shù)量，然后再次發(fā)動(dòng)一次數(shù)據(jù)請求，拿到全部的數(shù)據(jù)。當(dāng)然，這個(gè)總數(shù)據(jù)量也就是json中的total也是作為搜索結(jié)果的依據(jù)，如果total == 0 則判斷無法搜索到數(shù)據(jù)。

搜索到數(shù)據(jù)后，我就要提取無損音樂的hash，這個(gè)hash是音樂下載的關(guān)鍵，無損音樂hash鍵名：SQFileHash，提取到無損hash(如果是32個(gè)0就表示None)，我把他的名稱、歌手、hash以字典形式傳遞給下一個(gè)模塊。

代碼實(shí)現(xiàn):

a.請求模塊（復(fù)用率高）：

# coding=utf-8
import requests
import json
headers = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
  'Accept-Encoding': 'gzip, deflate',
  'Accept-Language': 'zh-CN,zh;q=0.9',
  'Cache-Control': 'max-age=0',
  'Connection': 'keep-alive',
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
         'Chrome/63.0.3239.132 Safari/537.36',
}
def parse(url):
  ret = json.loads(requests.get(url, headers=headers, timeout=5).text)
  # 返回的是已經(jīng)轉(zhuǎn)換過后的字典數(shù)據(jù)
  return ret
if __name__ == '__main__':
  parse()

b.搜索模塊

# coding=utf-8
import copy
import MusicParse
def search(keyword):
  search_url = 'http://songsearch.kugou.com/song_search_v2?keyword={}page=1'.format(keyword)
  # 這里需要判斷一下，ip與搜索字段可能會(huì)限制搜索，total進(jìn)行判斷
  total = MusicParse.parse(search_url)['data']['total']
  if total != 0:
    search_total_url = search_url + '&pagesize=%d' % total
    music_list = MusicParse.parse(search_total_url)['data']['lists']
    item, items = {}, []
    for music in music_list:
      if music['SQFileHash'] != '0'*32:
        item['Song'] = music['SongName'] # 歌名
        item['Singer'] = music['SingerName'] # 歌手
        item['Hash'] = music['SQFileHash'] # 歌曲無損hash
        items.append(copy.deepcopy(item))
    return items
  else:
    return None
if __name__ == '__main__':
  search()

到這步，音樂搜索接口以及利用完了，下面就是無損音樂搜索了。

2、音樂下載接口:

# V2版系統(tǒng),pc版
Music_api_1 = 'http://trackercdnbj.kugou.com/i/v2/?cmd=23&pid=1&behavior=download'
# V2版系統(tǒng),手機(jī)版（備用）
Music_api_2 = 'http://trackercdn.kugou.com/i/v2/?appid=1005&pid=2&cmd=25&behavior=play'
# 老版系統(tǒng)（備用）
Music_api_3 = 'http://trackercdn.kugou.com/i/?cmd=4&pid=1&forceDown=0&vip=1'

我這里準(zhǔn)備三個(gè)接口，根據(jù)酷狗系統(tǒng)版本不同，采用不同加密方式，酷狗音樂下載的關(guān)鍵就是音樂接口處提交的key的加密方式，key是由hash加密生成的，不同的酷狗版本，加密方式不同：

酷狗v2版key的生成：md5(hash +”kgcloudv2″)

酷狗老版key的生成：md5(hash +”kgcloud”)

只要將音樂的hash+key添加到api_url ,get提交過去，就能返回一段json數(shù)據(jù)，數(shù)據(jù)中就包括了音樂的下載鏈接，然后在提取其download_url。下面我將采用酷狗的第一個(gè)接口完成代碼的實(shí)現(xiàn)，當(dāng)然，酷狗存在地區(qū)的限制，接口有效性也帶檢測，如果第一個(gè)不行就換一個(gè)，你懂得?。。∪缓笪野褦?shù)據(jù)做成字典進(jìn)行傳遞。

代碼實(shí)現(xiàn)：

# coding=utf-8
import copy
import hashlib
import MusicParse
import MusicSearch
# V2版系統(tǒng),pc版,加密方式為md5(hash +"kgcloudv2")
Music_api_1 = 'http://trackercdnbj.kugou.com/i/v2/?cmd=23&pid=1&behavior=download'
# V2版系統(tǒng),手機(jī)版,加密方式為md5(hash +"kgcloudv2") （備用）
Music_api_2 = 'http://trackercdn.kugou.com/i/v2/?appid=1005&pid=2&cmd=25&behavior=play'
# 老版系統(tǒng),加密方式為md5(hash +"kgcloud")（備用）
Music_api_3 = 'http://trackercdn.kugou.com/i/?cmd=4&pid=1&forceDown=0&vip=1'
def V2Md5(Hash): # 用于生成key,適用于V2版酷狗系統(tǒng)
  return hashlib.md5((Hash + 'kgcloudv2').encode('utf-8')).hexdigest()
def Md5(Hash): # 用于老版酷狗系統(tǒng)
  return hashlib.md5((Hash + 'kgcloud').encode('utf-8')).hexdigest()
def HighSearch(keyword):
  music_list = MusicSearch.search(keyword)
  if music_list is not None:
    item, items = {}, []
    for music in music_list:
      Hash = str.lower(music['Hash'].encode('utf-8'))
      key_new = V2Md5(Hash) # 生成v2系統(tǒng)key
      try:
        DownUrl = MusicParse.parse(Music_api_1 + '&hash=%s&key=%s' % (Hash, key_new))['url']
        item['Song'] = music['Song'].encode('utf-8') # 歌名
        item['Singer'] = music['Singer'].encode('utf-8') # 歌手
        item['url'] = DownUrl
        items.append(copy.deepcopy(item))
      except KeyError:
        pass
    return items
if __name__ == '__main__':
  HighSearch()

酷狗的爬蟲系統(tǒng)就設(shè)計(jì)完畢了，下面開始使用flask框架搭建前后端了。

三、引擎搭建

這個(gè)搜索引擎是基于flask框架的，設(shè)計(jì)思路比較簡單，就是前端傳遞post數(shù)據(jù)（keyword）傳遞到后端，后端拿著這個(gè)keyword傳遞給爬蟲，爬蟲把數(shù)據(jù)返回給系統(tǒng)，系統(tǒng)在前端渲染出來。

代碼實(shí)現(xiàn):

# coding=utf-8
import sys
from flask import Flask
from flask import request, render_template
from KgSpider import HighMusicSearch
reload(sys)
sys.setdefaultencoding('utf-8')
app = Flask(__name__)
@app.route('/', methods=['GET', 'POST'])
def search():
  if request.method == 'GET':
    return render_template('index.html')
  elif request.method == 'POST':
    keyword = request.form.get('keyword')
    items = HighMusicSearch.HighSearch(keyword)
    if items != None:
      return render_template('list.html', list=items)
    else:
      return '找不到！??！不支持英文'
  else:
    return render_template('404.html')
if __name__ == '__main__':
  app.run(debug=True)

四、調(diào)試

整改引擎系統(tǒng)，也就設(shè)計(jì)完畢，然我們試試效果：

1.啟動(dòng)腳本：python run.py

2.輸入關(guān)鍵字進(jìn)行搜索

五、總結(jié)

引擎搭建完畢，也能正常的運(yùn)行了，但是這只是一個(gè)模型，完全沒有考慮，多用戶訪問帶來的壓力，很容易崩潰，當(dāng)然經(jīng)過我的測試，發(fā)現(xiàn)只能搜索中文，英文完全無效，why？別問我，我也不知道?。。‘?dāng)然在這里我也想說一下，請尊重版權(quán)?。?！雖然我是口是心非！?。。?！

項(xiàng)目地址: 碼云項(xiàng)目地址

總結(jié)

以上所述是小編給大家介紹的Python無損音樂搜索引擎實(shí)現(xiàn)代碼，希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持！

您可能感興趣的文章: