python語音識別whisper的使用
一、背景
最近想提取一些視頻的字幕,語音文案,研究了一波
二、whisper語音識別
Whisper 是一種通用的語音識別模型。它在不同音頻的大型數(shù)據(jù)集上進行訓練,也是一個多任務模型,可以執(zhí)行多語言語音識別以及語音翻譯和語言識別。
stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代碼發(fā)布,生成更準確的階段時間切換,并在無須額外推介的情況下獲得申領
安裝
pip install openai-whisper pip install stable-ts
Size | Parameters | English-only model | Multilingual model | Required VRAM | Relative speed |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
三、示例
模型越大,越精確,相應話費的時間越長
自帶語言識別功能,language最好加上,下面歌曲識別為英語,加后為中文
stable_whisper 是 whisper 進化版
import whisper import stable_whisper as whisper class WhisperTranscriber(object): ? ? def __init__(self, model_name): ? ? ? ? self.model = whisper.load_model(model_name) ? ? def whisper_transcribe(self, audio_path): ? ? ? ? audio = self.model.transcribe(audio_path, fp16=False, language='Chinese') ? ? ? ? return audio['text'] if __name__ == '__main__': ? ? transcriber = WhisperTranscriber("base") ? ? text = transcriber.whisper_transcribe("257853511.mp3") ? ? print(text)
可能是伴奏聲音過大,你才出來這是什么歌了嗎?stable_whisper 別的用法、生成字幕
import stable_whisper model = stable_whisper.load_model('base') results = model.transcribe('257853511.mp3', fp16=False, language='Chinese') stable_whisper.results_to_sentence_srt(results, 'audio') stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')
四、封裝工具
如果遇到簡繁轉換可以石下面
pip install zhconv
- zh-cn 大陸簡體
- zh-hant 繁體
from zhconv import convert convert('Python是一種動態(tài)的、面向對象的腳本語言', 'zh-hant') 'Python是一種動態(tài)的、面向對象的腳本語言'
到此這篇關于python語音識別whisper的使用的文章就介紹到這了,更多相關python語音識別whisper內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Pyside2中嵌入Matplotlib的繪圖的實現(xiàn)
這篇文章主要介紹了Pyside2中嵌入Matplotlib的繪圖的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-02-02關于Python?Selenium自動化導出新版WOS(web?of?science)檢索結果的問題
這篇文章主要介紹了Python?Selenium自動化導出新版WOS(web?of?science)檢索結果,本代碼屬于半自動化導出,考慮到開發(fā)效率等因素,有兩處在首次導出時需要手動操作,具體實現(xiàn)過程跟隨小編一起看看吧2022-01-01tensorflow1.15與numpy、keras以及Python兼容版本對照方式
這篇文章主要介紹了tensorflow1.15與numpy、keras以及Python兼容版本對照方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-03-03