快捷導(dǎo)航

python語(yǔ)音識(shí)別whisper的使用

更新時(shí)間：2023年02月27日 10:05:49 作者：風(fēng)華浪浪

本文主要介紹了python語(yǔ)音識(shí)別whisper的使用，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

一、背景

最近想提取一些視頻的字幕，語(yǔ)音文案，研究了一波

二、whisper語(yǔ)音識(shí)別

Whisper 是一種通用的語(yǔ)音識(shí)別模型。它在不同音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練，也是一個(gè)多任務(wù)模型，可以執(zhí)行多語(yǔ)言語(yǔ)音識(shí)別以及語(yǔ)音翻譯和語(yǔ)言識(shí)別。
stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代碼發(fā)布，生成更準(zhǔn)確的階段時(shí)間切換，并在無(wú)須額外推介的情況下獲得申領(lǐng)

安裝

pip install openai-whisper 
pip install stable-ts

Size	Parameters	English-only model	Multilingual model	Required VRAM	Relative speed
tiny	39 M	tiny.en	tiny	~1 GB	~32x
base	74 M	base.en	base	~1 GB	~16x
small	244 M	small.en	small	~2 GB	~6x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1550 M	N/A	large	~10 GB	1x

三、示例

模型越大，越精確，相應(yīng)話費(fèi)的時(shí)間越長(zhǎng)
自帶語(yǔ)言識(shí)別功能，language最好加上，下面歌曲識(shí)別為英語(yǔ)，加后為中文
stable_whisper 是 whisper 進(jìn)化版

import whisper
import stable_whisper as whisper

class WhisperTranscriber(object):

? ? def __init__(self, model_name):
? ? ? ? self.model = whisper.load_model(model_name)

? ? def whisper_transcribe(self, audio_path):
? ? ? ? audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')
? ? ? ? return audio['text']

if __name__ == '__main__':

? ? transcriber = WhisperTranscriber("base")
? ? text = transcriber.whisper_transcribe("257853511.mp3")
? ? print(text)

可能是伴奏聲音過(guò)大，你才出來(lái)這是什么歌了嗎？stable_whisper 別的用法、生成字幕

import stable_whisper
model = stable_whisper.load_model('base')
results = model.transcribe('257853511.mp3', fp16=False, language='Chinese')
stable_whisper.results_to_sentence_srt(results, 'audio')
stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')

四、封裝工具

buzz

如果遇到簡(jiǎn)繁轉(zhuǎn)換可以石下面

pip install zhconv

zh-cn 大陸簡(jiǎn)體
zh-hant 繁體

from zhconv import convert     
convert('Python是一種動(dòng)態(tài)的、面向?qū)ο蟮哪_本語(yǔ)言', 'zh-hant')
'Python是一種動(dòng)態(tài)的、面向?qū)ο蟮哪_本語(yǔ)言'

到此這篇關(guān)于python語(yǔ)音識(shí)別whisper的使用的文章就介紹到這了,更多相關(guān)python語(yǔ)音識(shí)別whisper內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

Python必備技巧之字典(Dictionary)詳解
Python中的字典由于是對(duì)象的集合屬于復(fù)合數(shù)據(jù)類型，類似于列表。本文將通過(guò)示例詳細(xì)講解Python中字典的使用方法，感興趣的可以了解一下
2022-03-03
Pyside2中嵌入Matplotlib的繪圖的實(shí)現(xiàn)
這篇文章主要介紹了Pyside2中嵌入Matplotlib的繪圖的實(shí)現(xiàn)，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2021-02-02
關(guān)于Python?Selenium自動(dòng)化導(dǎo)出新版WOS(web?of?science)檢索結(jié)果的問(wèn)題
這篇文章主要介紹了Python?Selenium自動(dòng)化導(dǎo)出新版WOS(web?of?science)檢索結(jié)果,本代碼屬于半自動(dòng)化導(dǎo)出，考慮到開(kāi)發(fā)效率等因素，有兩處在首次導(dǎo)出時(shí)需要手動(dòng)操作，具體實(shí)現(xiàn)過(guò)程跟隨小編一起看看吧
2022-01-01
利用pandas進(jìn)行數(shù)據(jù)清洗的方法
本文主要介紹了利用pandas進(jìn)行數(shù)據(jù)清洗的方法，文中通過(guò)示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2021-09-09
python安裝自己的代碼到site-packages問(wèn)題
這篇文章主要介紹了python安裝自己的代碼到site-packages問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
2023-11-11
Python3 hashlib密碼散列算法原理詳解
這篇文章主要介紹了Python3 hashlib密碼散列算法原理詳解,文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-03-03
Python正則表達(dá)式如何進(jìn)行字符串替換實(shí)例
Python正則表達(dá)式在使用中會(huì)經(jīng)常應(yīng)用到字符串替換的代碼。這篇文章主要介紹了Python正則表達(dá)式如何進(jìn)行字符串替換,具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下。
2016-12-12
python操作 hbase 數(shù)據(jù)的方法
下面小編就為大家?guī)?lái)一篇python操作 hbase 數(shù)據(jù)的方法。小編覺(jué)得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
2016-12-12
tensorflow1.15與numpy、keras以及Python兼容版本對(duì)照方式
這篇文章主要介紹了tensorflow1.15與numpy、keras以及Python兼容版本對(duì)照方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
2024-03-03
使用python寫(xiě)一個(gè)自動(dòng)瀏覽文章的腳本實(shí)例
今天小編就為大家分享一篇使用python寫(xiě)一個(gè)自動(dòng)瀏覽文章的腳本實(shí)例，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2019-12-12