快捷導(dǎo)航

Qt實(shí)現(xiàn)高準(zhǔn)確率的語(yǔ)音識(shí)別

更新時(shí)間：2024年11月08日 16:02:46 作者：我喜歡就喜歡

Vosk是一個(gè)開(kāi)源的語(yǔ)音識(shí)別工具,支持中英文及多種語(yǔ)言,具備離線識(shí)別能力,且不依賴互聯(lián)網(wǎng),本文就來(lái)聊聊如何使用Vosk API在C++中進(jìn)行中英文識(shí)別吧

1.選擇語(yǔ)音識(shí)別引擎

開(kāi)源語(yǔ)音識(shí)別項(xiàng)目中，以下兩款工具可以用于支持中英文識(shí)別，并且與Qt兼容：

Vosk：Vosk是一個(gè)開(kāi)源的語(yǔ)音識(shí)別工具，支持中英文及多種語(yǔ)言，具備離線識(shí)別能力，且不依賴互聯(lián)網(wǎng)。

PaddleSpeech：PaddleSpeech是百度的開(kāi)源語(yǔ)音識(shí)別工具，準(zhǔn)確率較高，但需要稍微多一點(diǎn)的配置。

本示例將使用 Vosk，它支持多平臺(tái)，且易于集成到C++項(xiàng)目中，滿足離線使用、90%以上準(zhǔn)確率、開(kāi)源等要求。

2.Vosk資源下載

首先，下載Vosk的C++庫(kù)及中英文模型文件：https://gitcode.com/gh_mirrors/vo/vosk-api/overview

Vosk庫(kù)： Vosk GitHub倉(cāng)庫(kù)

中英文模型：Vosk 模型下載

下載對(duì)應(yīng)的庫(kù)和模型，并確保你的開(kāi)發(fā)環(huán)境中已經(jīng)配置好CMake和Qt開(kāi)發(fā)環(huán)境。

3.示例代碼

以下是一個(gè)完整的Qt項(xiàng)目代碼示例，展示如何使用Vosk API在C++中進(jìn)行中英文識(shí)別。假設(shè)你已經(jīng)下載并解壓了模型文件。

#include <QCoreApplication>
#include <QAudioInput>
#include <QBuffer>
#include <QFile>
#include <vosk_api.h>
#include <iostream>

class SpeechRecognizer : public QObject {
    Q_OBJECT
public:
    SpeechRecognizer(const QString &modelPath, QObject *parent = nullptr)
        : QObject(parent) {
        model = vosk_model_new(modelPath.toStdString().c_str());
        recognizer = vosk_recognizer_new(model, 16000.0);
    }

    ~SpeechRecognizer() {
        vosk_recognizer_free(recognizer);
        vosk_model_free(model);
    }

    void startRecognition() {
        QAudioFormat format;
        format.setSampleRate(16000);
        format.setChannelCount(1);
        format.setSampleSize(16);
        format.setCodec("audio/pcm");
        format.setByteOrder(QAudioFormat::LittleEndian);
        format.setSampleType(QAudioFormat::SignedInt);

        audioInput = new QAudioInput(format, this);
        audioBuffer.open(QIODevice::WriteOnly | QIODevice::Truncate);
        audioInput->start(&audioBuffer);

        connect(audioInput, &QAudioInput::stateChanged, this, &SpeechRecognizer::onStateChanged);
    }

private slots:
    void onStateChanged(QAudio::State state) {
        if (state == QAudio::IdleState) {
            audioInput->stop();
            audioBuffer.close();
            processAudio();
        }
    }

    void processAudio() {
        QByteArray audioData = audioBuffer.buffer();
        int length = audioData.size();
        const char *data = audioData.data();

        if (vosk_recognizer_accept_waveform(recognizer, data, length)) {
            std::cout << vosk_recognizer_result(recognizer) << std::endl;
        } else {
            std::cout << vosk_recognizer_partial_result(recognizer) << std::endl;
        }
    }

private:
    VoskModel *model;
    VoskRecognizer *recognizer;
    QAudioInput *audioInput;
    QBuffer audioBuffer;
};

int main(int argc, char *argv[]) {
    QCoreApplication app(argc, argv);

    QString modelPath = "/path/to/vosk-model"; // 將此路徑替換為實(shí)際模型路徑
    SpeechRecognizer recognizer(modelPath);
    recognizer.startRecognition();

    return app.exec();
}

4.編譯與運(yùn)行

將vosk_api.h和vosk庫(kù)文件添加到項(xiàng)目中，并在CMakeLists.txt中配置vosk庫(kù)路徑。編譯后運(yùn)行該程序，即可開(kāi)始錄音和實(shí)時(shí)中英文語(yǔ)音識(shí)別。

5.提示

確保麥克風(fēng)采樣率為16kHz，以匹配識(shí)別模型的采樣率。

運(yùn)行過(guò)程中需要確保模型路徑正確，并安裝所需的Qt和Vosk依賴庫(kù)。

參考資源

Vosk官方文檔和API：https://alphacephei.com/vosk

到此這篇關(guān)于Qt實(shí)現(xiàn)高準(zhǔn)確率的語(yǔ)音識(shí)別的文章就介紹到這了,更多相關(guān)Qt語(yǔ)音識(shí)別內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: