Python的speech_recognition庫(kù)如何將聲音轉(zhuǎn)為文字
前言
本篇給大家分享一下通過(guò)Python的speech_recognition庫(kù)將聲音轉(zhuǎn)為文字。
之前已經(jīng)介紹了將音頻文件轉(zhuǎn)為文字,只依賴speech_recognition
庫(kù),本篇將聲音轉(zhuǎn)為文字,除了speech_recognition
庫(kù),還要依賴pyaudio
庫(kù),而且mac用戶需要安裝PortAudio
。
Python-語(yǔ)音轉(zhuǎn)文字相關(guān)庫(kù)介紹 可見文末詳細(xì)介紹
一、PortAudio
1.PortAudio是什么?
PortAudio是一種跨平臺(tái)的音頻I/O庫(kù),用于實(shí)現(xiàn)音頻輸入和輸出功能。它提供了一種簡(jiǎn)單、一致的跨平臺(tái)API,可以讓開發(fā)者在不同操作系統(tǒng)上編寫音頻應(yīng)用程序,如音頻錄制和播放器。PortAudio支持多種音頻設(shè)備,包括音頻接口、音頻文件、網(wǎng)絡(luò)流等,并且可以在各種操作系統(tǒng)上使用,如Windows、Mac OS X、Linux、Unix等。同時(shí),PortAudio還提供了一些高級(jí)特性,如流控制、同步、緩沖管理、音頻格式轉(zhuǎn)換等。
2.安裝PortAudio
macOS下:
brew install portaudio
二、使用方法
1.引入庫(kù)
import speech_recognition as sr
2.創(chuàng)建一個(gè)Recognizer對(duì)象
r = sr.Recognizer()
3.使用麥克風(fēng)錄音,從麥克風(fēng)錄制音頻
# 使用麥克風(fēng)錄音 with sr.Microphone() as source: print("請(qǐng)說(shuō)話...") # 從麥克風(fēng)錄制音頻 audio = r.listen(source) print("錄音結(jié)束")
4.將音頻轉(zhuǎn)換為文字
try: # 將音頻轉(zhuǎn)換為文字 text = r.recognize_google(audio, language='zh-CN') print("你說(shuō)的是:", text) except sr.UnknownValueError: print("Google Speech Recognition could not understand audio") except sr.RequestError as e: print("Could not request results from Google Speech Recognition service; {0}".format(e))
5.轉(zhuǎn)換結(jié)果
聲音:深度神經(jīng)網(wǎng)絡(luò)模型部署
請(qǐng)說(shuō)話...
錄音結(jié)束
你說(shuō)的是: 深度神經(jīng)網(wǎng)絡(luò)模型部署Process finished with exit code 0
Python-語(yǔ)音轉(zhuǎn)文字相關(guān)庫(kù)介紹
一、speech_recognition庫(kù)是什么?
Python的speech_recognition庫(kù)是一個(gè)用于語(yǔ)音識(shí)別的Python包,它可以使Python程序能夠識(shí)別和翻譯來(lái)自麥克風(fēng)、音頻文件或網(wǎng)絡(luò)流的語(yǔ)音。它支持多種語(yǔ)音識(shí)別引擎,包括Google Speech Recognition、CMU Sphinx、Microsoft Bing Voice Recognition等,可以根據(jù)需要選擇不同的引擎進(jìn)行語(yǔ)音識(shí)別。
使用speech_recognition庫(kù)進(jìn)行語(yǔ)音識(shí)別非常簡(jiǎn)單,只需要導(dǎo)入該庫(kù)并創(chuàng)建一個(gè)Recognizer對(duì)象,然后調(diào)用該對(duì)象的recognize_*()方法即可。例如,調(diào)用recognize_google()方法可以使用Google Speech Recognition引擎進(jìn)行語(yǔ)音識(shí)別。
二、安裝speech_recognition庫(kù)
pip install SpeechRecognition
三、查看speech_recognition版本
pip show SpeechRecognition
Name: SpeechRecognition
Version: 3.10.0
Summary: Library for performing speech recognition, with support for several engines and APIs, online and offline.
Home-page: https://github.com/Uberi/speech_recognition#readme
Author: Anthony Zhang (Uberi)
Author-email: azhang9@gmail.com
License: BSD
Requires: requests
Required-by:
四、pyaudio庫(kù)是什么?
Pyaudio是Python語(yǔ)言的一個(gè)音頻處理庫(kù),可以用來(lái)錄制音頻、播放音頻、讀取音頻文件等。它是一個(gè)跨平臺(tái)的庫(kù),可以在Windows、Mac、Linux等多個(gè)操作系統(tǒng)上使用。Pyaudio庫(kù)是基于PortAudio C庫(kù)開發(fā)的,PortAudio是一個(gè)跨平臺(tái)的音頻處理庫(kù),Pyaudio庫(kù)可以方便的使用PortAudio庫(kù)的功能。
五、安裝pyaudio庫(kù)
pip install pyaudio
六、查看pyaudio版本
pip show pyaudio
Name: PyAudio
Version: 0.2.13
Summary: Cross-platform audio I/O with PortAudio
Home-page: https://people.csail.mit.edu/hubert/pyaudio/
Author: Hubert Pham
Author-email:
License: MIT
Requires:
Required-by:
到此這篇關(guān)于通過(guò)Python的speech_recognition庫(kù)將聲音轉(zhuǎn)為文字的文章就介紹到這了,更多相關(guān)Python聲音轉(zhuǎn)為文字內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python使用Pandas處理測(cè)試數(shù)據(jù)的方法
Pandas是一個(gè)功能極其強(qiáng)大的數(shù)據(jù)分析庫(kù),可以高效地操作各種數(shù)據(jù)集,這篇文章主要介紹了Python自動(dòng)化測(cè)試-使用Pandas來(lái)高效處理測(cè)試數(shù)據(jù),需要的朋友可以參考下2023-02-02Python人工智能深度學(xué)習(xí)RNN模型結(jié)構(gòu)流程
這篇文章主要為大家介紹了Python人工智能深度學(xué)習(xí)RNN的模型流程結(jié)構(gòu),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2021-11-11跟老齊學(xué)Python之關(guān)于循環(huán)的小伎倆
不管是while還是for,所發(fā)起的循環(huán),在python編程中是經(jīng)常被用到的。特別是for,一般認(rèn)為,它要比while快,而且也容易寫(是否容易,可能因人而異,但是,執(zhí)行時(shí)間快,是的確的),因此在實(shí)踐中,for用的比較多點(diǎn)。2014-10-10Django REST framework 單元測(cè)試實(shí)例解析
這篇文章主要介紹了Django REST framework 單元測(cè)試實(shí)例解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-11-11