腳本之家服務器常用軟件

快捷導航

基于Python實現(xiàn)語音識別功能

更新時間：2023年12月11日 09:33:16 作者：愛看書的小沐

這篇文章給大家介紹了如何基于Python實現(xiàn)語音識別功能,文中通過代碼示例給大家介紹的非常詳細,對大家的學習或工作有一定的幫助,具有一定的參考價值,需要的朋友可以參考下

1、簡介

https://github.com/openai/whisper

在這里插入圖片描述

1.1 whisper簡介

Whisper 是一種通用的語音識別模型。它是在包含各種音頻的大型數(shù)據(jù)集上訓練的，也是一個多任務模型，可以執(zhí)行多語言語音識別、語音翻譯和語言識別。

在這里插入圖片描述

Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達到人類水準的Whisper神經(jīng)網(wǎng)絡，且它亦支持其它98種語言的自動語音辨識。 Whisper系統(tǒng)所提供的自動語音辨識（Automatic Speech Recognition，ASR）模型是被訓練來運行語音辨識與翻譯任務的，它們能將各種語言的語音變成文本，也能將這些文本翻譯成英文。

1.2 whisper模型

以下是可用模型的名稱及其相對于大型模型的近似內(nèi)存要求和推理速度;實際速度可能因許多因素而異，包括可用的硬件。

Size	Parameters	English-only model	Multilingual model	Required VRAM	Relative speed
tiny	39 M	tiny.en	tiny	~1 GB	~32x
base	74 M	base.en	base	~1 GB	~16x
small	244 M	small.en	smal	l ~2 GB	~6x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1550 M	N/A	large	~10 GB	1x

它自動下載的模型緩存，如下：

在這里插入圖片描述

2、安裝

2.1 whisper

pip install -U openai-whisper
# pip install git+https://github.com/openai/whisper.git 
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
pip install zhconv
pip3 install wheel

pip3 install torch torchvision torchaudio
# 注：沒科學上網(wǎng)會下載有可能很慢，可以替換成國內(nèi)鏡像加快下載速度
pip3 install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

在這里插入圖片描述

2.2 pytorch

https://pytorch.org/

選擇的是穩(wěn)定版，windows系統(tǒng)，pip安裝方式，python語言、cpu版本的軟件。

在這里插入圖片描述

pip3 install torch torchvision torchaudio

2.3 ffmpeg

https://github.com/BtbN/FFmpeg-Builds/releases

在這里插入圖片描述

解壓后，找到bin文件夾下的“ffmpeg.exe”，將它復制到一個文件夾中，假設這個文件夾的路徑是"D:\software\ffmpeg"，然后將"D:/software/ffmpeg"添加到系統(tǒng)環(huán)境變量PATH。

3、測試

3.1 命令測試

whisper audio.mp3

在這里插入圖片描述

以上whisper audio.mp3的命令形式是最簡單的一種，它默認使用的是small模式的模型轉寫，我們還可以使用更高等級的模型來提高正確率。比如：

whisper audio.mp3 --model medium
whisper japanese.wav --language Japanese
whisper chinese.mp4 --language Chinese --task translate
whisper audio.flac audio.mp3 audio.wav --model medium
whisper output.wav --model medium  --language Chinese

同時默認會生成5個文件，文件名和你的源文件一樣，但擴展名分別是：.json、.srt、.tsv、.txt、.vtt。除了普通文本，也可以直接生成電影字幕，還可以調(diào)json格式做開發(fā)處理。

在這里插入圖片描述

常用參數(shù)如下：

--task：指定轉錄方式，默認使用 --task transcribe 轉錄模式，--task translate 則為翻譯模式，目前只支持翻譯成英文。
--model：指定使用模型，默認使用 --model small，Whisper 還有英文專用模型，就是在名稱后加上 .en，這樣速度更快。
--language：指定轉錄語言，默認會截取 30 秒來判斷語種，但最好指定為某種語言，比如指定中文是 --language Chinese。
--device：指定硬件加速，默認使用 auto 自動選擇，--device cuda 則為顯卡，cpu 就是 CPU， mps 為蘋果 M1 芯片。
--output_format：指定字幕文件的生成格式，txt,vtt,srt,tsv,json,all，指定多個可以用大括號{}包裹，不設置默認all。
-- output_dir：指定字幕文件的輸出目錄，不設置默認輸出到當前目錄下。
--fp16：默認True，使用16位浮點數(shù)進行計算，可以在一定程度上減少計算和存儲開銷，可能存在精度丟失，筆者CPU不支持，會出現(xiàn)下述警告，指定它為False就不會出現(xiàn)了，即采用32位浮點數(shù)進行計算。

在這里插入圖片描述

3.2 代碼測試：識別聲音文件

import whisper

if __name__ == '__main__':
    model = whisper.load_model("tiny")
    result = model.transcribe("audio.mp3", fp16=False, language="Chinese")
    print(result["text"])

在這里插入圖片描述

3.3 代碼測試：實時錄音識別

import whisper
import zhconv
import wave  # 使用wave庫可讀、寫wav類型的音頻文件
import pyaudio  # 使用pyaudio庫可以進行錄音，播放，生成wav文件


def record(time):  # 錄音程序
    # 定義數(shù)據(jù)流塊
    CHUNK = 1024  # 音頻幀率（也就是每次讀取的數(shù)據(jù)是多少，默認1024）
    FORMAT = pyaudio.paInt16  # 采樣時生成wav文件正常格式
    CHANNELS = 1  # 音軌數(shù)（每條音軌定義了該條音軌的屬性,如音軌的音色、音色庫、通道數(shù)、輸入/輸出端口、音量等。可以多個音軌，不唯一）
    RATE = 16000  # 采樣率（即每秒采樣多少數(shù)據(jù)）
    RECORD_SECONDS = time  # 錄音時間
    WAVE_OUTPUT_FILENAME = "./output.wav"  # 保存音頻路徑
    p = pyaudio.PyAudio()  # 創(chuàng)建PyAudio對象
    stream = p.open(format=FORMAT,  # 采樣生成wav文件的正常格式
                    channels=CHANNELS,  # 音軌數(shù)
                    rate=RATE,  # 采樣率
                    input=True,  # Ture代表這是一條輸入流，F(xiàn)alse代表這不是輸入流
                    frames_per_buffer=CHUNK)  # 每個緩沖多少幀
    print("* recording")  # 開始錄音標志
    frames = []  # 定義frames為一個空列表
    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):  # 計算要讀多少次，每秒的采樣率/每次讀多少數(shù)據(jù)*錄音時間=需要讀多少次
        data = stream.read(CHUNK)  # 每次讀chunk個數(shù)據(jù)
        frames.append(data)  # 將讀出的數(shù)據(jù)保存到列表中
    print("* done recording")  # 結束錄音標志

    stream.stop_stream()  # 停止輸入流
    stream.close()  # 關閉輸入流
    p.terminate()  # 終止pyaudio

    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')  # 以'wb‘二進制流寫的方式打開一個文件
    wf.setnchannels(CHANNELS)  # 設置音軌數(shù)
    wf.setsampwidth(p.get_sample_size(FORMAT))  # 設置采樣點數(shù)據(jù)的格式，和FOMART保持一致
    wf.setframerate(RATE)  # 設置采樣率與RATE要一致
    wf.writeframes(b''.join(frames))  # 將聲音數(shù)據(jù)寫入文件
    wf.close()  # 數(shù)據(jù)流保存完，關閉文件


if __name__ == '__main__':
    model = whisper.load_model("tiny")
    record(3)  # 定義錄音時間，單位/s
    result = model.transcribe("output.wav",language='Chinese',fp16 = True)
    s = result["text"]
    s1 = zhconv.convert(s, 'zh-cn')
    print(s1)

4、工具

4.1 WhisperDesktop

https://github.com/Const-me/Whisper

OpenAI 的 Whisper 自動語音識別（ASR）模型的高性能 GPGPU 推理
This project is a Windows port of the whisper.cpp implementation.
Which in turn is a C++ port of OpenAI’s Whisper automatic speech recognition (ASR) model.

下載 WhisperDesktop 后，點擊運行，然后加載模型文件，最后選擇文件即可進行轉錄。由于支持 GPU 硬解，轉錄速度非常的快。

在這里插入圖片描述

4.2 Buzz

https://github.com/chidiwilliams/buzz

Buzz 在您的個人計算機上離線轉錄和翻譯音頻。由 OpenAI 的 Whisper 提供支持。

另一款基于 Whisper 的圖形化軟件是 Buzz，相比 WhipserDesktop，Buzz 支持 Windows、macOS、Linux。

在這里插入圖片描述

安裝如下：

（1）PyPI:

pip install buzz-captions
python -m buzz

（2）Windows:

Download and run the file in the releases page…exe‘

在這里插入圖片描述

Buzz 的安裝包體積稍大，同時 Buzz 使用的是 .pt 后綴名的模型文件，運行后軟件會自動下載模型文件。

但最好是提前下好模型文件，然后放在指定的位置。

Mac：~/.cache/whisper
Windows：C:\Users\<你的用戶名>\.cache\whisper

但 Buzz 使用的是 CPU 軟解，目前還不支持 GPU 硬解。

4.3 Whisper-WebUI

https://github.com/jhj0517/Whisper-WebUI

基于 Gradio 的 Whisper 瀏覽器界面。你可以把它當作一個簡單的字幕生成器！

在這里插入圖片描述

以上就是基于Python實現(xiàn)語音識別功能的詳細內(nèi)容，更多關于Python語音識別的資料請關注腳本之家其它相關文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

基于Python實現(xiàn)語音識別功能

目錄

1、簡介

1.1 whisper簡介

1.2 whisper模型

2、安裝

2.1 whisper

2.2 pytorch

2.3 ffmpeg

3、測試

3.1 命令測試

3.2 代碼測試：識別聲音文件

3.3 代碼測試：實時錄音識別

4、工具

4.1 WhisperDesktop

4.2 Buzz

4.3 Whisper-WebUI

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

基于Python實現(xiàn)語音識別功能

目錄

1、簡介

1.1 whisper簡介

1.2 whisper模型

2、安裝

2.1 whisper

2.2 pytorch

2.3 ffmpeg

3、測試

3.1 命令測試

3.2 代碼測試：識別聲音文件

3.3 代碼測試：實時錄音識別

4、工具

4.1 WhisperDesktop

4.2 Buzz

4.3 Whisper-WebUI

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

1、簡介

2、安裝

3、測試

4、工具