欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實現(xiàn)語音識別Whisper的使用示例

 更新時間:2023年12月13日 11:37:26   作者:愛看書的小沐  
Whisper是由OpenAI基于Python開發(fā)的能夠識別多國語言的語音識別模型,本文主要介紹了Python實現(xiàn)語音識別Whisper的使用示例,具有一定的參考價值,感興趣的可以了解一下

1、簡介

https://github.com/openai/whisper

在這里插入圖片描述

1.1 whisper簡介

Whisper 是一種通用的語音識別模型。它是在包含各種音頻的大型數(shù)據(jù)集上訓練的,也是一個多任務模型,可以執(zhí)行多語言語音識別、語音翻譯和語言識別。

在這里插入圖片描述

Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達到人類水準的Whisper神經(jīng)網(wǎng)絡(luò),且它亦支持其它98種語言的自動語音辨識。 Whisper系統(tǒng)所提供的自動語音辨識(Automatic Speech Recognition,ASR)模型是被訓練來運行語音辨識與翻譯任務的,它們能將各種語言的語音變成文本,也能將這些文本翻譯成英文。

1.2 whisper模型

以下是可用模型的名稱及其相對于大型模型的近似內(nèi)存要求和推理速度;實際速度可能因許多因素而異,包括可用的硬件。

SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speed
tiny39 Mtiny.entiny~1 GB~32x
base74 Mbase.enbase~1 GB~16x
small244 Msmall.ensmall ~2 GB~6x
medium769 Mmedium.enmedium~5 GB~2x
large1550 MN/Alarge~10 GB1x

它自動下載的模型緩存,如下:

在這里插入圖片描述

2、安裝

2.1 whisper

pip install -U openai-whisper
# pip install git+https://github.com/openai/whisper.git 
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
pip install zhconv
pip3 install wheel

pip3 install torch torchvision torchaudio
# 注:沒科學上網(wǎng)會下載有可能很慢,可以替換成國內(nèi)鏡像加快下載速度
pip3 install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

在這里插入圖片描述

2.2 pytorch

https://pytorch.org/

選擇的是穩(wěn)定版,windows系統(tǒng),pip安裝方式,python語言、cpu版本的軟件。

在這里插入圖片描述

pip3 install torch torchvision torchaudio

2.3 ffmpeg

https://github.com/BtbN/FFmpeg-Builds/releases

在這里插入圖片描述

解壓后,找到bin文件夾下的“ffmpeg.exe”,將它復制到一個文件夾中,假設(shè)這個文件夾的路徑是"D:\software\ffmpeg",然后將"D:/software/ffmpeg"添加到系統(tǒng)環(huán)境變量PATH。

3、測試

3.1 命令測試

whisper audio.mp3

在這里插入圖片描述

以上whisper audio.mp3的命令形式是最簡單的一種,它默認使用的是small模式的模型轉(zhuǎn)寫,我們還可以使用更高等級的模型來提高正確率。 比如:

whisper audio.mp3 --model medium
whisper japanese.wav --language Japanese
whisper chinese.mp4 --language Chinese --task translate
whisper audio.flac audio.mp3 audio.wav --model medium
whisper output.wav --model medium  --language Chinese

同時默認會生成5個文件,文件名和你的源文件一樣,但擴展名分別是:.json、.srt、.tsv、.txt、.vtt。除了普通文本,也可以直接生成電影字幕,還可以調(diào)json格式做開發(fā)處理。

在這里插入圖片描述

常用參數(shù)如下:

--task: 指定轉(zhuǎn)錄方式,默認使用 --task transcribe 轉(zhuǎn)錄模式,--task translate 則為 翻譯模式,目前只支持翻譯成英文。
--model:指定使用模型,默認使用 --model small,Whisper 還有 英文專用模型,就是在名稱后加上 .en,這樣速度更快。
--language:指定轉(zhuǎn)錄語言,默認會截取 30 秒來判斷語種,但最好指定為某種語言,比如指定中文是 --language Chinese。
--device:指定硬件加速,默認使用 auto 自動選擇,--device cuda 則為顯卡,cpu 就是 CPU, mps 為蘋果 M1 芯片。
--output_format:指定字幕文件的生成格式,txt,vtt,srt,tsv,json,all,指定多個可以用大括號{}包裹,不設(shè)置默認all。
-- output_dir: 指定字幕文件的輸出目錄,不設(shè)置默認輸出到當前目錄下。
--fp16:默認True,使用16位浮點數(shù)進行計算,可以在一定程度上減少計算和存儲開銷,可能存在精度丟失,筆者CPU不支持,會出現(xiàn)下述警告,指定它為False就不會出現(xiàn)了,即采用32位浮點數(shù)進行計算。

在這里插入圖片描述

3.2 代碼測試:識別聲音文件

import whisper

if __name__ == '__main__':
    model = whisper.load_model("tiny")
    result = model.transcribe("audio.mp3", fp16=False, language="Chinese")
    print(result["text"])

在這里插入圖片描述

3.3 代碼測試:實時錄音識別

import whisper
import zhconv
import wave  # 使用wave庫可讀、寫wav類型的音頻文件
import pyaudio  # 使用pyaudio庫可以進行錄音,播放,生成wav文件


def record(time):  # 錄音程序
    # 定義數(shù)據(jù)流塊
    CHUNK = 1024  # 音頻幀率(也就是每次讀取的數(shù)據(jù)是多少,默認1024)
    FORMAT = pyaudio.paInt16  # 采樣時生成wav文件正常格式
    CHANNELS = 1  # 音軌數(shù)(每條音軌定義了該條音軌的屬性,如音軌的音色、音色庫、通道數(shù)、輸入/輸出端口、音量等??梢远鄠€音軌,不唯一)
    RATE = 16000  # 采樣率(即每秒采樣多少數(shù)據(jù))
    RECORD_SECONDS = time  # 錄音時間
    WAVE_OUTPUT_FILENAME = "./output.wav"  # 保存音頻路徑
    p = pyaudio.PyAudio()  # 創(chuàng)建PyAudio對象
    stream = p.open(format=FORMAT,  # 采樣生成wav文件的正常格式
                    channels=CHANNELS,  # 音軌數(shù)
                    rate=RATE,  # 采樣率
                    input=True,  # Ture代表這是一條輸入流,F(xiàn)alse代表這不是輸入流
                    frames_per_buffer=CHUNK)  # 每個緩沖多少幀
    print("* recording")  # 開始錄音標志
    frames = []  # 定義frames為一個空列表
    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):  # 計算要讀多少次,每秒的采樣率/每次讀多少數(shù)據(jù)*錄音時間=需要讀多少次
        data = stream.read(CHUNK)  # 每次讀chunk個數(shù)據(jù)
        frames.append(data)  # 將讀出的數(shù)據(jù)保存到列表中
    print("* done recording")  # 結(jié)束錄音標志

    stream.stop_stream()  # 停止輸入流
    stream.close()  # 關(guān)閉輸入流
    p.terminate()  # 終止pyaudio

    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')  # 以'wb‘二進制流寫的方式打開一個文件
    wf.setnchannels(CHANNELS)  # 設(shè)置音軌數(shù)
    wf.setsampwidth(p.get_sample_size(FORMAT))  # 設(shè)置采樣點數(shù)據(jù)的格式,和FOMART保持一致
    wf.setframerate(RATE)  # 設(shè)置采樣率與RATE要一致
    wf.writeframes(b''.join(frames))  # 將聲音數(shù)據(jù)寫入文件
    wf.close()  # 數(shù)據(jù)流保存完,關(guān)閉文件


if __name__ == '__main__':
    model = whisper.load_model("tiny")
    record(3)  # 定義錄音時間,單位/s
    result = model.transcribe("output.wav",language='Chinese',fp16 = True)
    s = result["text"]
    s1 = zhconv.convert(s, 'zh-cn')
    print(s1)

4、工具

4.1 WhisperDesktop

https://github.com/Const-me/Whisper

OpenAI 的 Whisper 自動語音識別 (ASR) 模型的高性能 GPGPU 推理
This project is a Windows port of the whisper.cpp implementation.
Which in turn is a C++ port of OpenAI’s Whisper automatic speech recognition (ASR) model.

下載 WhisperDesktop 后,點擊運行,然后加載模型文件,最后選擇文件即可進行轉(zhuǎn)錄。由于支持 GPU 硬解,轉(zhuǎn)錄速度非常的快。

在這里插入圖片描述

4.2 Buzz

https://github.com/chidiwilliams/buzz

Buzz 在您的個人計算機上離線轉(zhuǎn)錄和翻譯音頻。由 OpenAI 的 Whisper 提供支持。

另一款基于 Whisper 的圖形化軟件是 Buzz,相比 WhipserDesktop,Buzz 支持 Windows、macOS、Linux。

在這里插入圖片描述

安裝如下:

  • (1)PyPI:
pip install buzz-captions
python -m buzz
  • (2)Windows:

Download and run the file in the releases page…exe‘

在這里插入圖片描述

Buzz 的安裝包體積稍大,同時 Buzz 使用的是 .pt 后綴名的模型文件,運行后軟件會自動下載模型文件。

但最好是提前下好模型文件,然后放在指定的位置。

Mac:~/.cache/whisper
Windows:C:\Users\<你的用戶名>\.cache\whisper

但 Buzz 使用的是 CPU 軟解 ,目前還不支持 GPU 硬解 。

4.3 Whisper-WebUI

https://github.com/jhj0517/Whisper-WebUI

基于 Gradio 的 Whisper 瀏覽器界面。你可以把它當作一個簡單的字幕生成器!

在這里插入圖片描述

To run Whisper, you need to have , version 3.8 ~ 3.10 and .gitpythonFFmpeg

到此這篇關(guān)于Python實現(xiàn)語音識別Whisper的使用示例的文章就介紹到這了,更多相關(guān)Python 語音識別Whisper內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家! 

相關(guān)文章

  • pygame游戲之旅 添加icon和bgm音效的方法

    pygame游戲之旅 添加icon和bgm音效的方法

    這篇文章主要為大家詳細介紹了pygame游戲之旅的第14篇,教大家如何添加icon和bgm音效,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-11-11
  • pip install命令安裝擴展庫整理

    pip install命令安裝擴展庫整理

    這篇文章主要介紹了pip install命令安裝擴展庫整理,文中代碼和圖文講解的很詳細,有需要的同學可以參考下
    2021-03-03
  • python控制windows剪貼板,向剪貼板中寫入圖片的實例

    python控制windows剪貼板,向剪貼板中寫入圖片的實例

    今天小編就為大家分享一篇python控制windows剪貼板,向剪貼板中寫入圖片的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-05-05
  • 詳解python變量與數(shù)據(jù)類型

    詳解python變量與數(shù)據(jù)類型

    這篇文章主要介紹了python變量與數(shù)據(jù)類型的相關(guān)資料,幫助大家更好的理解和學習python,感興趣的朋友可以了解下
    2020-08-08
  • python如何生成textgrid文件

    python如何生成textgrid文件

    這篇文章主要介紹了python如何生成textgrid文件,本文通過實例代碼給大家介紹的非常詳細,感興趣的朋友跟隨小編一起看看吧
    2024-07-07
  • 在anaconda中配置graphviz包的詳細過程

    在anaconda中配置graphviz包的詳細過程

    graphviz是貝爾實驗室開發(fā)的一個開源的工具包,它使用一個特定的DSL(領(lǐng)域特定語言):dot作為腳本語言,然后使用布局引擎來解析此腳本,并完成自動布局,這篇文章主要介紹了如何在anaconda中配置graphviz包,需要的朋友可以參考下
    2023-02-02
  • Python的UTC時間轉(zhuǎn)換講解

    Python的UTC時間轉(zhuǎn)換講解

    今天小編就為大家分享一篇關(guān)于Python的UTC時間轉(zhuǎn)換講解,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-02-02
  • 基于PyQt5制作一個windows通知管理器

    基于PyQt5制作一個windows通知管理器

    python框架win10toast可以用來做windows的消息通知功能,通過設(shè)定通知的間隔時間來實現(xiàn)一些事件通知的功能。本文將利用win10toast這一框架制作一個windows通知管理器,感興趣的可以參考一下
    2022-02-02
  • python實現(xiàn)emoji對齊特殊字符對齊高級文本對齊

    python實現(xiàn)emoji對齊特殊字符對齊高級文本對齊

    這篇文章主要為大家介紹了python實現(xiàn)emoji對齊特殊字符對齊高級文本對齊方法實例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2023-11-11
  • python中l(wèi)ist.copy方法用法詳解

    python中l(wèi)ist.copy方法用法詳解

    這篇文章主要給大家介紹了關(guān)于python中l(wèi)ist.copy方法使用的相關(guān)資料,文中還介紹了python?list.copy()?和?copy.deepcopy()區(qū)別,需要的朋友可以參考下
    2023-02-02

最新評論