python錄音并調(diào)用百度語音識別接口的示例

更新時間：2020年12月01日 15:22:30 作者：希希大隊長

這篇文章主要介紹了python錄音并調(diào)用百度語音識別接口的示例，幫助大家更好的理解和利用python處理音頻，感興趣的朋友可以了解下

#！/usr/bin/env python
import requests
import json
import base64
import pyaudio
import wave
import os
import psutil


#首先配置必要的信息
def bat(voice_path):
  baidu_server = 'https://aip.baidubce.com/oauth/2.0/token?'
  grant_type = 'client_credentials'
  client_id = 'uj70rS1LiwZ9sQDvMSUqKsie' #API KEY
  client_secret = 'Q88eav41PzeNLczZ3hlRjhR8e4WShXwD' #Secret KEY  這里可以自己去百度注冊，這里是我的API KEY 和 Secret KEY

  #合成請求token的url
  url = baidu_server+'grant_type='+grant_type+'&client_id='+client_id+'&client_secret='+client_secret

  #獲取token
  res = requests.get(url).text
  data = json.loads(res)
  token = data['access_token']

  #設置音頻的屬性，采樣率，格式等
  VOICE_RATE = 8000
  FILE_NAME = voice_path
  # USER_ID = '16241950' #這里的id隨便填填就好啦，我填的自己昵稱
  FILE_TYPE = 'wav'
  CUID="wate_play"
  #讀取文件二進制內(nèi)容
  f_obj = open(FILE_NAME, 'rb')
  content = base64.b64encode(f_obj.read())  # 百度語音識別需要base64編碼格式
  speech = content.decode("utf-8")
  size = os.path.getsize(FILE_NAME)

  #json封裝
  datas = json.dumps({
    'format': FILE_TYPE,
    'rate': VOICE_RATE,
    'channel': 1,
    'cuid': CUID,
    'token': token,
    'speech': speech,
    'len': size,
    "dev_pid":"1536"
  })
  return datas

#設置headers和請求地址url
def post(datas):
  headers = {'Content-Type':'application/json'}
  url = 'https://vop.baidu.com/server_api'
  # url = "http://vop.baidu.com/server_api"

  #用post方法傳數(shù)據(jù)
  request = requests.post(url, datas, headers)
  result = json.loads(request.text)
  text = result.get("result")
  if result['err_no'] == 0:
    return text
  else:
    return "Error"


def get_audio(filepath):
  input("回車開始錄音 >>>")   #輸出提示文本，input接收一個值,轉(zhuǎn)為str，賦值給aa
  CHUNK = 256         #定義數(shù)據(jù)流塊
  FORMAT = pyaudio.paInt16  #量化位數(shù)（音量級劃分）
  CHANNELS = 1        # 聲道數(shù);聲道數(shù)：可以是單聲道或者是雙聲道
  RATE = 8000        # 采樣率;采樣率：一秒內(nèi)對聲音信號的采集次數(shù)，常用的有8kHz, 16kHz, 32kHz, 48kHz, 11.025kHz, 22.05kHz, 44.1kHz
  RECORD_SECONDS = 5     #錄音秒數(shù)
  WAVE_OUTPUT_FILENAME = filepath   #wav文件路徑
  p = pyaudio.PyAudio()        #實例化

  stream = p.open(format=FORMAT,
          channels=CHANNELS,
          rate=RATE,
          input=True,
          frames_per_buffer=CHUNK)
  print("*"*10, "開始錄音：請在5秒內(nèi)輸入語音")
  frames = []                         #定義一個列表
  for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):   #循環(huán)，采樣率11025 / 256 * 5
    data = stream.read(CHUNK)                #讀取chunk個字節(jié) 保存到data中
    frames.append(data)                   #向列表frames中添加數(shù)據(jù)data
  # print(frames)
  print("*" * 10, "錄音結束\n")

  stream.stop_stream()
  stream.close()     #關閉
  p.terminate()      #終結

  wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')         #打開wav文件創(chuàng)建一個音頻對象wf，開始寫WAV文件
  wf.setnchannels(CHANNELS)                  #配置聲道數(shù)
  wf.setsampwidth(p.get_sample_size(FORMAT))         #配置量化位數(shù)
  wf.setframerate(RATE)                    #配置采樣率
  wf.writeframes(b''.join(frames))              #轉(zhuǎn)換為二進制數(shù)據(jù)寫入文件
  wf.close()       #關閉
  return


def check_disk():
  list_drive = psutil.disk_partitions() # 找出本地磁盤列表，保存的是結構體對象
  list_disk = []
  for drive in list_drive:
    list_disk.append(drive.device)
  return list_disk


if __name__ == '__main__':
  list_disk = check_disk() # 檢索本地磁盤
  dirname_path = os.path.join(list_disk[0], "voice") # 設置語音文件存放路徑， 
                                  （mac os下需要自己定存儲路徑）
  if not os.path.exists(dirname_path):
    os.makedirs(dirname_path)

  filename = "voice.wav" # 定義語音文件名
  in_path = os.path.join(dirname_path, filename)

  get_audio(in_path) # 錄音

  datas = bat(in_path) # 封裝百度語音識別需要的配置信息，返回請求頭
  res = post(datas) # 連接百度語音識別接口，得到識別結果
  print("識別結果：",res[0])

實現(xiàn)效果：