Python實(shí)現(xiàn)語音識(shí)別vosk的示例代碼
1、簡(jiǎn)介
https://alphacephei.com/vosk/index.zh.html
Vosk 是一個(gè)語音識(shí)別工具包。
1.1 vosk簡(jiǎn)介
- 支持二十+種語言 - 中文,英語,印度英語,德語,法語,西班牙語,葡萄牙語,俄語,土耳其語,越南語,意大利語,荷蘭人,加泰羅尼亞語,阿拉伯, 希臘語, 波斯語, 菲律賓語,烏克蘭語, 哈薩克語, 瑞典語, 日語, 世界語, 印地語, 捷克語, 波蘭語, 烏茲別克語, 韓國(guó)語
- 移動(dòng)設(shè)備上脫機(jī)工作-Raspberry Pi,Android,iOS
- 使用簡(jiǎn)單的 pip3 install vosk 安裝
- 每種語言的手提式模型只有是50Mb, 但還有更大的服務(wù)器模型可用
- 提供流媒體API,以提供最佳用戶體驗(yàn)(與流行的語音識(shí)別python包不同)
- 還有用于不同編程語言的包裝器-java / csharp / javascript等
- 可以快速重新配置詞匯以實(shí)現(xiàn)最佳準(zhǔn)確性
- 支持說話人識(shí)別
1.2 vosk模型
https://alphacephei.com/vosk/models
有兩種類型的模型 - 大模型和小模型,非常適合 移動(dòng)應(yīng)用程序上的一些有限任務(wù)。它們可以在智能手機(jī)上運(yùn)行, 樹莓派的。還建議將它們用于桌面應(yīng)用程序。小 模型的大小通常約為 50Mb,需要大約 300Mb 的內(nèi)存 在運(yùn)行時(shí)。大模型用于 服務(wù)器。大型型號(hào)需要高達(dá) 16Gb 的內(nèi)存,因?yàn)樗鼈儜?yīng)用了先進(jìn)的 人工智能算法。
# 下載模型文件: wget -c https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip wget -c https://alphacephei.com/vosk/models/vosk-model-cn-0.15.zip wget -c https://alphacephei.com/vosk/models/vosk-model-cn-kaldi-multicn-0.15.zip
1.3 vosk服務(wù)
一個(gè)基于Vosk-API的非常簡(jiǎn)單的服務(wù)器。
不同的協(xié)議有四種實(shí)現(xiàn) - websocket、grpc、mqtt、webrtc。
啟動(dòng)服務(wù)器:
#獲取docker鏡像: docker pull alphacep/kaldi-cn:latest #啟動(dòng)服務(wù): docker run -d -p 2700:2700 alphacep/kaldi-cn:latest
若要測(cè)試服務(wù)器,請(qǐng)運(yùn)行示例腳本:
git clone https://github.com/alphacep/vosk-server cd vosk-server/websocket ./test.py test.wav
使用麥克風(fēng)進(jìn)行測(cè)試,您需要安裝 sounddevice pip 包:
pip3 install sounddevice
要使用麥克風(fēng)進(jìn)行測(cè)試,請(qǐng)運(yùn)行:
./test_microphone.py -u ws://localhost:2700
使用docker方式啟動(dòng)服務(wù),比較簡(jiǎn)單,但下載docker包比較耗時(shí),如果已經(jīng)下載好vosk-server代碼及對(duì)應(yīng)的模型文件,可以直接通過python代碼啟動(dòng)vosk-server提供asr服務(wù)。
#1、下載vosk-server代碼 git clone https://github.com/alphacep/vosk-server #2、下載模型文件 wget -c https://alphacephei.com/vosk/models/vosk-model-cn-0.15.zip #3、啟動(dòng)vosk服務(wù) python asr_server.py vosk-model-cn-0.15
2、安裝
確保您擁有最新的 pip 和 python3 版本:
Python版本:3.5-3.9
pip 版本:20.3 及更高版本。
pip3 install vosk # pip3 install vosk -i https://pypi.doubanio.com/simple # pip3 install https://github.com/alphacep/vosk-api/releases/download/v0.3.42/vosk-0.3.42-py3-none-linux_riscv64.whl
python3 --version pip3 --version pip3 -v install vosk # 驗(yàn)證ffmpeg是否已安裝,調(diào)用命令行(windows+R輸入cmd)/ Ubuntu終端 $ ffmpeg –version
3、測(cè)試
3.1 命令行測(cè)試
vosk-transcriber -i test.mp4 -o test.txt vosk-transcriber -i test.mp4 -t srt -o test.srt vosk-transcriber -l fr -i test.m4a -t srt -o test.srt vosk-transcriber --list-languages # windows $ cd xxx/xxx # 查看help命令 $ vosk-transcriber -h # 列舉當(dāng)前的語言 $ vosk-transcriber --list-languages # 方式一 :中文語音轉(zhuǎn)漢字 $ vosk-transcriber -i xxx.mp3 -o xxx.txt -l cn # 方式二 :中文語音轉(zhuǎn)漢字, 也可以去網(wǎng)站下載模型后直接指定模型路徑 $ vosk-transcriber -i xxx.mp3 -o xxx.txt -m 解壓后的文件夾路徑
3.2 代碼測(cè)試
若要運(yùn)行 python 示例,請(qǐng)克隆 vosk-api 并運(yùn)行以下命令:
git clone https://github.com/alphacep/vosk-api cd vosk-api/python/example python3 ./test_simple.py test.wav
使用您自己的音頻文件時(shí),請(qǐng)確保其格式正確 - PCM 16kHz 16bit 單聲道。否則,如果您安裝了 ffmpeg,則可以使用 ,它為您進(jìn)行轉(zhuǎn)換。
到此這篇關(guān)于Python實(shí)現(xiàn)語音識(shí)別vosk的示例代碼的文章就介紹到這了,更多相關(guān)Python 語音識(shí)別vosk內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python實(shí)現(xiàn)語音識(shí)別和語音合成功能
- python之語音識(shí)別speech模塊
- python3實(shí)現(xiàn)語音轉(zhuǎn)文字(語音識(shí)別)和文字轉(zhuǎn)語音(語音合成)
- python語音識(shí)別的轉(zhuǎn)換方法
- 基于Python創(chuàng)建語音識(shí)別控制系統(tǒng)
- 基于Python實(shí)現(xiàn)語音識(shí)別和語音轉(zhuǎn)文字
- python語音識(shí)別whisper的使用
- Linux下利用python實(shí)現(xiàn)語音識(shí)別詳細(xì)教程
- 基于Python實(shí)現(xiàn)語音識(shí)別功能
相關(guān)文章
Python Word實(shí)現(xiàn)批量替換文本并生成副本
這篇文章主要為大家詳細(xì)介紹了Python Word如何實(shí)現(xiàn)批量替換文本并生成副本,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2024-10-10Python截圖的五個(gè)方法實(shí)例總結(jié)
學(xué)習(xí)一門語言最好的方法便是實(shí)踐,想要拿Python寫一個(gè)截圖工具,下面這篇文章主要給大家介紹了關(guān)于Python截圖的五個(gè)方法,文中通過圖文介紹的非常詳細(xì),需要的朋友可以參考下2022-12-12Python3中的f-Strings增強(qiáng)版字符串格式化方法
這篇文章主要介紹了Python3中的f-Strings增強(qiáng)版字符串格式化方法,看完本文你將學(xué)習(xí)到如何以及為什么使用f-strings。對(duì)大家的工作或?qū)W習(xí)具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-03-03pyqt5 實(shí)現(xiàn)多窗口跳轉(zhuǎn)的方法
今天小編就為大家分享一篇pyqt5 實(shí)現(xiàn)多窗口跳轉(zhuǎn)的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-06-06Python一行代碼實(shí)現(xiàn)打開各種類型的文件
在處理大量文件時(shí),手動(dòng)一個(gè)個(gè)打開是不是很麻煩,這時(shí)候,Python的os.startfile()就是你的救星啦,本文我們就來看看如何一行代碼打開各種類型的文件吧2024-12-12python腳本使用阿里云slb對(duì)惡意攻擊進(jìn)行封堵的實(shí)現(xiàn)
這篇文章主要介紹了python腳本使用阿里云slb對(duì)惡意攻擊進(jìn)行封堵的實(shí)現(xiàn),本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-02-02Python日期格式和字符串格式相互轉(zhuǎn)換的方法
這篇文章主要介紹了Python日期格式和字符串格式相互轉(zhuǎn)換的方法,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-02-02python實(shí)現(xiàn)根據(jù)主機(jī)名字獲得所有ip地址的方法
這篇文章主要介紹了python實(shí)現(xiàn)根據(jù)主機(jī)名字獲得所有ip地址的方法,涉及Python解析IP地址的相關(guān)技巧,需要的朋友可以參考下2015-06-06