Python的speech_recognition庫如何將聲音轉(zhuǎn)為文字
前言
本篇給大家分享一下通過Python的speech_recognition庫將聲音轉(zhuǎn)為文字。
之前已經(jīng)介紹了將音頻文件轉(zhuǎn)為文字,只依賴speech_recognition
庫,本篇將聲音轉(zhuǎn)為文字,除了speech_recognition
庫,還要依賴pyaudio
庫,而且mac用戶需要安裝PortAudio
。
Python-語音轉(zhuǎn)文字相關(guān)庫介紹 可見文末詳細介紹
一、PortAudio
1.PortAudio是什么?
PortAudio是一種跨平臺的音頻I/O庫,用于實現(xiàn)音頻輸入和輸出功能。它提供了一種簡單、一致的跨平臺API,可以讓開發(fā)者在不同操作系統(tǒng)上編寫音頻應(yīng)用程序,如音頻錄制和播放器。PortAudio支持多種音頻設(shè)備,包括音頻接口、音頻文件、網(wǎng)絡(luò)流等,并且可以在各種操作系統(tǒng)上使用,如Windows、Mac OS X、Linux、Unix等。同時,PortAudio還提供了一些高級特性,如流控制、同步、緩沖管理、音頻格式轉(zhuǎn)換等。
2.安裝PortAudio
macOS下:
brew install portaudio
二、使用方法
1.引入庫
import speech_recognition as sr
2.創(chuàng)建一個Recognizer對象
r = sr.Recognizer()
3.使用麥克風錄音,從麥克風錄制音頻
# 使用麥克風錄音 with sr.Microphone() as source: print("請說話...") # 從麥克風錄制音頻 audio = r.listen(source) print("錄音結(jié)束")
4.將音頻轉(zhuǎn)換為文字
try: # 將音頻轉(zhuǎn)換為文字 text = r.recognize_google(audio, language='zh-CN') print("你說的是:", text) except sr.UnknownValueError: print("Google Speech Recognition could not understand audio") except sr.RequestError as e: print("Could not request results from Google Speech Recognition service; {0}".format(e))
5.轉(zhuǎn)換結(jié)果
聲音:深度神經(jīng)網(wǎng)絡(luò)模型部署
請說話...
錄音結(jié)束
你說的是: 深度神經(jīng)網(wǎng)絡(luò)模型部署Process finished with exit code 0
Python-語音轉(zhuǎn)文字相關(guān)庫介紹
一、speech_recognition庫是什么?
Python的speech_recognition庫是一個用于語音識別的Python包,它可以使Python程序能夠識別和翻譯來自麥克風、音頻文件或網(wǎng)絡(luò)流的語音。它支持多種語音識別引擎,包括Google Speech Recognition、CMU Sphinx、Microsoft Bing Voice Recognition等,可以根據(jù)需要選擇不同的引擎進行語音識別。
使用speech_recognition庫進行語音識別非常簡單,只需要導(dǎo)入該庫并創(chuàng)建一個Recognizer對象,然后調(diào)用該對象的recognize_*()方法即可。例如,調(diào)用recognize_google()方法可以使用Google Speech Recognition引擎進行語音識別。
二、安裝speech_recognition庫
pip install SpeechRecognition
三、查看speech_recognition版本
pip show SpeechRecognition
Name: SpeechRecognition
Version: 3.10.0
Summary: Library for performing speech recognition, with support for several engines and APIs, online and offline.
Home-page: https://github.com/Uberi/speech_recognition#readme
Author: Anthony Zhang (Uberi)
Author-email: azhang9@gmail.com
License: BSD
Requires: requests
Required-by:
四、pyaudio庫是什么?
Pyaudio是Python語言的一個音頻處理庫,可以用來錄制音頻、播放音頻、讀取音頻文件等。它是一個跨平臺的庫,可以在Windows、Mac、Linux等多個操作系統(tǒng)上使用。Pyaudio庫是基于PortAudio C庫開發(fā)的,PortAudio是一個跨平臺的音頻處理庫,Pyaudio庫可以方便的使用PortAudio庫的功能。
五、安裝pyaudio庫
pip install pyaudio
六、查看pyaudio版本
pip show pyaudio
Name: PyAudio
Version: 0.2.13
Summary: Cross-platform audio I/O with PortAudio
Home-page: https://people.csail.mit.edu/hubert/pyaudio/
Author: Hubert Pham
Author-email:
License: MIT
Requires:
Required-by:
到此這篇關(guān)于通過Python的speech_recognition庫將聲音轉(zhuǎn)為文字的文章就介紹到這了,更多相關(guān)Python聲音轉(zhuǎn)為文字內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python使用Pandas處理測試數(shù)據(jù)的方法
Pandas是一個功能極其強大的數(shù)據(jù)分析庫,可以高效地操作各種數(shù)據(jù)集,這篇文章主要介紹了Python自動化測試-使用Pandas來高效處理測試數(shù)據(jù),需要的朋友可以參考下2023-02-02Python人工智能深度學習RNN模型結(jié)構(gòu)流程
這篇文章主要為大家介紹了Python人工智能深度學習RNN的模型流程結(jié)構(gòu),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步2021-11-11跟老齊學Python之關(guān)于循環(huán)的小伎倆
不管是while還是for,所發(fā)起的循環(huán),在python編程中是經(jīng)常被用到的。特別是for,一般認為,它要比while快,而且也容易寫(是否容易,可能因人而異,但是,執(zhí)行時間快,是的確的),因此在實踐中,for用的比較多點。2014-10-10Django REST framework 單元測試實例解析
這篇文章主要介紹了Django REST framework 單元測試實例解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2019-11-11