腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

FasterWhisperGUI(音頻處理工具) v0.8.0 安裝免費(fèi)版

FasterWhisperGUI下載

投訴報(bào)錯(cuò)

軟件大?。?span>1.7GB
軟件語言：簡體中文
軟件類型：國產(chǎn)軟件
軟件授權(quán)：免費(fèi)軟件
軟件類別：音頻處理
應(yīng)用平臺：Windows平臺
更新時(shí)間：2024-07-03
網(wǎng)友評分：

360通過騰訊通過金山通過

1.7GB

詳情介紹

FasterWhisperGUI是一款帶有 PySide6 的 fast_whisper 的 GUI 軟件，你可以將音頻或視頻文件轉(zhuǎn)錄為srt/txt/smi/vtt/lrc文件，將在線OpenAI-whisper模型轉(zhuǎn)換為ct2格式，并且提供VAD模型和whisper模型的所有參數(shù)，目前支持whisperX，Democs 模型，whisper large-v3模型。

聽到Whisper，這個(gè)大家可能有點(diǎn)熟悉，這是OpenAI做的一個(gè)神經(jīng)網(wǎng)絡(luò)模型，可以在本地實(shí)時(shí)語音轉(zhuǎn)文字，用來翻譯和做字幕等，之前給大家介紹過一款叫做Constme-Whisper的軟件，可以快速進(jìn)行離線語音文字識別，還有GPU加速等等。

而faster-whisper-GUI增添了更多的特性，可以快速把音視頻文件轉(zhuǎn)成srt/txt/smi/vtt/lrc，支持Demucs、FastWhiper和whisperX、VAD-model這些技術(shù)，簡單來說，支持的可調(diào)整的選項(xiàng)要比之前推薦的工具更多一點(diǎn)。

由于這類工具離線處理的特點(diǎn)，所以體積都比較大，faster-whisper-GUI的本體有1.6個(gè)G，安裝完之后的占用又是6個(gè)多G，而且還不包括后續(xù)添加模型的大小，建議大家體驗(yàn)的時(shí)候，裝在空間富裕的盤里。

如果是分離音頻和背景音樂的話，直接把文件丟進(jìn)來就行，試了一下效果還不錯(cuò)，也可以單獨(dú)設(shè)置輸出的內(nèi)容。

其他的就需要加載一下額外模型了，把模型加載的時(shí)候需要注意，有個(gè)處理設(shè)備的選項(xiàng)，CPU還是CUDA，如果你用的不是英偉達(dá)的顯卡，選擇自動就好了，不然會提示加載失敗。

模型也有多重選擇，如果上面帶有V3標(biāo)志，記得把這個(gè)開關(guān)打開。

來試試語音轉(zhuǎn)文字，如果你覺得自己的設(shè)備處理等待時(shí)間有點(diǎn)長，在軟件執(zhí)行的時(shí)候可以掛在后臺和切換到其他界面，在它的詳情頁面能看到輸出的具體信息，它的正確率還是比較高的，中英文混合與首字母大小寫這些細(xì)節(jié)都有。

這類機(jī)器識別和人一樣，識別率還不能做到100%正確，識別完之后，會有一些錯(cuò)誤需要手動調(diào)整，在faster-whisper-GUI里，它會自己跳轉(zhuǎn)到字幕制作的界面，可以快速瀏覽調(diào)整，在這里分割不同說話人的文本等等

在設(shè)置里面，還有許多細(xì)節(jié)可以調(diào)整，調(diào)整音頻的默認(rèn)語言和翻譯，以及各種防止幻聽的參數(shù)。

這個(gè)功能在一些視頻編輯軟件還是需要收費(fèi)的，或者需要云端處理，識別的準(zhǔn)確率也就那樣。

更新日志

0.8.0 改動

修復(fù)沒有贊助渠道的 bug #126

升級 faster-whisper 到 1.02 版本

添加 distil-large-v3 模型在線模式支持 #130

最新的 Distil-Whisper 模型 distil-large-v3 本質(zhì)上是為與 OpenAI 順序算法配合使用而設(shè)計(jì)的。

支持初始化更多 whisper 模型參數(shù)

音頻分段設(shè)置

max_new_tokens: 每個(gè)區(qū)塊生成的新令牌的最大數(shù)量。如果未設(shè)置，最大值將通過默認(rèn)的 max_size 設(shè)置。

chunk_length: 音頻段的長度。如果不是 None，它將覆蓋 FeatureExtractor 的默認(rèn)chunk_size。

clip_timestamps: 逗號分隔的要處理的剪輯的時(shí)間戳列表（以秒為單位）開始,結(jié)束,開始,結(jié)束......。最后一個(gè)結(jié)束時(shí)間戳默認(rèn)為文件的結(jié)束。如果使用 clip_timestamps，將忽略 VAD 設(shè)置。

幻聽參數(shù)

hallucination_silence_threshold: 當(dāng) word_timestamps 為 True 時(shí)，當(dāng)檢測到可能的幻覺時(shí)，跳過長于此閾值（以秒為單位）的靜默期。

其他設(shè)置

hotwords: 為模型提供的熱詞/提示短語。如果 prefix 不是 None，則無效。你可以輸入提示詞，類似于：“the video is about comfyUI”。

常規(guī)

language_detection_threshold: 如果語言標(biāo)記的最大概率高于此值，則會檢測為該語言。

language_detection_segments: 語言檢測需要考慮的分段數(shù)量。

其他新特性：https://github.com/SYSTRAN/faster-whisper/releases/tag/v1.0.2

修復(fù) 復(fù)制字幕功能的 bug

更新一些 UI 文字

停用轉(zhuǎn)寫參數(shù) 頁面的保存參數(shù)、讀取參數(shù) 功能

起止時(shí)間、說話人列居中顯示

升級 pytorch 到 2.3.0 , CUDA12

提示

軟件需要完全卸載舊版之后安裝新版（cache文件夾可不做清理）

需要安裝 ffmpeg

使用 V3 模型時(shí)，如果頻繁出現(xiàn)顯存溢出，請嘗試更新顯卡驅(qū)動程序到最新或者回退到上一個(gè)穩(wěn)定版本，當(dāng)前版本（2024.5.29）測試結(jié)果穩(wěn)定。

FasterWhisperGUI 音頻處理

下載地址

下載錯(cuò)誤？【投訴報(bào)錯(cuò)】