Java實(shí)現(xiàn)本地語音識(shí)別與熱點(diǎn)檢測詳解
引言
隨著語音交互技術(shù)的發(fā)展,如何高效地處理用戶的語音輸入成為許多應(yīng)用的重要課題。本文將詳細(xì)介紹如何在一個(gè)Java項(xiàng)目中同時(shí)實(shí)現(xiàn):
- 基于Vosk的本地語音識(shí)別:無需調(diào)用云端API即可完成語音到文本的轉(zhuǎn)換。
- 本地?zé)狳c(diǎn)語音內(nèi)容識(shí)別:對(duì)識(shí)別出的文本進(jìn)行關(guān)鍵詞匹配,快速響應(yīng)特定指令或查詢。
- 集成阿里云智能語音服務(wù):利用阿里云提供的高級(jí)語音功能,如更準(zhǔn)確的語音識(shí)別、情感分析等。
一、準(zhǔn)備工作
1. 注冊(cè)阿里云賬號(hào)并開通 ASR 服務(wù)
- 訪問 阿里云官網(wǎng)
- 登錄控制臺(tái),搜索“智能語音交互”
- 開通服務(wù)并創(chuàng)建 AppKey 和 AccessKey
2. 環(huán)境準(zhǔn)備
- JDK 1.8+
- Maven 或 Gradle 構(gòu)建工具
- 支持上傳 .wav 或 .pcm 音頻文件
- 下載 Vosk SDK 及中文模型
3.Maven 依賴
<dependencies> <!-- Vosk Java SDK --> <dependency> <groupId>org.vosk</groupId> <artifactId>vosk-java</artifactId> <version>0.3.34</version> </dependency> <!-- Alibaba Cloud SDK for Java --> <dependency> <groupId>com.alibaba.nls</groupId> <artifactId>nls-sdk-java</artifactId> <version>3.0.5</version> </dependency> </dependencies>
二、核心代碼實(shí)現(xiàn)
1. 定義熱點(diǎn)詞匯庫(本地關(guān)鍵詞)
import java.util.HashSet; import java.util.Set; public class HotSpotWords { public static final Set<String> HOT_WORDS = new HashSet<>(Set.of( "你好", "退出", "播放音樂", "打開設(shè)置", "天氣怎么樣", "幫我查一下" )); }
2. 使用 Vosk 進(jìn)行本地語音識(shí)別 + 熱點(diǎn)檢測
import org.vosk.Model; import org.vosk.Recognizer; import org.vosk.LibVosk; import javax.sound.sampled.*; import java.io.File; import java.io.IOException; public class LocalASRWithHotSpot { // 檢測是否為熱點(diǎn)語音 private static boolean isHotSpot(String text) { return HotSpotWords.HOT_WORDS.stream().anyMatch(text::contains); } public static void main(String[] args) throws Exception { // 初始化 Vosk 庫 LibVosk.setLogLevel(0); // 設(shè)置日志級(jí)別 // 加載本地模型(路徑根據(jù)實(shí)際修改) Model model = new Model("models/cn-small"); // 打開音頻文件 File audioFile = new File("samples/audio.wav"); AudioInputStream ais = AudioSystem.getAudioInputStream(audioFile); // 轉(zhuǎn)換音頻格式為 PCM 16bit 單聲道 16kHz AudioFormat targetFormat = new AudioFormat(16000, 16, 1, true, false); AudioInputStream convertedStream = AudioSystem.getAudioInputStream(targetFormat, ais); // 創(chuàng)建識(shí)別器 Recognizer recognizer = new Recognizer(model, 16000); byte[] buffer = new byte[4096]; int bytesRead; System.out.println("開始本地語音識(shí)別..."); while ((bytesRead = convertedStream.read(buffer)) >= 0) { if (bytesRead > 0) { recognizer.acceptWaveForm(buffer, bytesRead); } } String result = recognizer.finalResult(); System.out.println("最終識(shí)別結(jié)果: " + result); // 熱點(diǎn)檢測 if (isHotSpot(result)) { System.out.println("發(fā)現(xiàn)熱點(diǎn)語音內(nèi)容: " + result); } else { System.out.println("非熱點(diǎn)語音內(nèi)容"); } // 關(guān)閉資源 recognizer.close(); convertedStream.close(); ais.close(); } }
3. 集成阿里云智能語音服務(wù)
為了增強(qiáng)語音識(shí)別能力或使用更多高級(jí)功能,我們可以結(jié)合阿里云智能語音服務(wù)。以下是一個(gè)簡單的示例:
import com.alibaba.nls.client.protocol.asr.AsrPidCallBack; import com.alibaba.nls.client.protocol.asr.SpeechTranscriber; import com.alibaba.nls.client.protocol.asr.SpeechTranscriberResponse; import java.io.File; import java.util.concurrent.CountDownLatch; public class AliyunASRIntegration { public static void main(String[] args) throws Exception { String accessKeyId = "<your-access-key-id>"; String accessKeySecret = "<your-access-key-secret>"; String appKey = "<your-appkey>"; String audioFilePath = "path/to/audio.wav"; // 支持 wav/pcm/amr CountDownLatch latch = new CountDownLatch(1); SpeechTranscriber asrClient = new SpeechTranscriber(accessKeyId, accessKeySecret, appKey, new AsrPidCallBack() { @Override public void onRecognitionResultChange(SpeechTranscriberResponse response) { String result = response.getTranscript(); System.out.println("實(shí)時(shí)識(shí)別結(jié)果:" + result); } @Override public void onRecognitionCompleted(SpeechTranscriberResponse response) { String finalResult = response.getTranscript(); System.out.println("最終識(shí)別結(jié)果:" + finalResult); latch.countDown(); } @Override public void onTaskFailed(SpeechTranscriberResponse response) { System.err.println("識(shí)別失敗: " + response.getErrorMsg()); latch.countDown(); } }); // 設(shè)置語言模型、采樣率等參數(shù)(根據(jù)音頻格式調(diào)整) asrClient.setFormat("pcm"); // 可改為 wav/amr asrClient.setSampleRate(16000); // 根據(jù)音頻采樣率調(diào)整 // 啟動(dòng)識(shí)別任務(wù) File audioFile = new File(audioFilePath); asrClient.start(audioFile); latch.await(); // 等待識(shí)別完成 asrClient.stop(); // 停止客戶端 } }
三、流程圖說明
四、總結(jié)與展望
通過本文,你現(xiàn)在可以在一個(gè)Java項(xiàng)目中實(shí)現(xiàn):
- 本地語音識(shí)別:使用Vosk引擎,在沒有網(wǎng)絡(luò)連接的情況下也能完成語音到文本的轉(zhuǎn)換。
- 本地?zé)狳c(diǎn)語音內(nèi)容識(shí)別:對(duì)識(shí)別出的文本進(jìn)行關(guān)鍵詞匹配,快速響應(yīng)特定指令或查詢。
- 集成阿里云智能語音服務(wù):當(dāng)需要更高的準(zhǔn)確性或更多的高級(jí)功能時(shí),可以輕松切換到阿里云的服務(wù)。
這種方法不僅提高了系統(tǒng)的靈活性和隱私保護(hù)水平,還能根據(jù)具體需求靈活調(diào)整策略。
以上就是Java實(shí)現(xiàn)本地語音識(shí)別與熱點(diǎn)檢測詳解的詳細(xì)內(nèi)容,更多關(guān)于Java語音識(shí)別與熱點(diǎn)檢測的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
使用Java實(shí)現(xiàn)三種等級(jí)的掃雷游戲(完整版)
掃雷是一款大眾類的益智小游戲,根據(jù)點(diǎn)擊格子出現(xiàn)的數(shù)字找出所有非雷格子,同時(shí)避免踩雷,踩到一個(gè)雷即全盤皆輸,下面這篇文章主要給大家介紹了關(guān)于使用Java實(shí)現(xiàn)三種等級(jí)的掃雷游戲的相關(guān)資料,需要的朋友可以參考下2023-01-01Java中easypoi的使用之導(dǎo)入校驗(yàn)
因工作需要,使用easypoi導(dǎo)入表格,并進(jìn)行校驗(yàn),將表格中有問題的地方,給出提示信息,以表格形式返回,下面這篇文章主要給大家介紹了關(guān)于Java中easypoi的使用之導(dǎo)入校驗(yàn)的相關(guān)資料,需要的朋友可以參考下2023-03-03SpringBoot項(xiàng)目引入第三方sdk?jar包的解決方案
這篇文章主要介紹了SpringBoot項(xiàng)目引入第三方sdk?jar包,個(gè)人感覺比較好的解決方案是將 jar上傳到本地的maven倉庫,然后通過pom依賴,引入第三方j(luò)ar包,需要的朋友可以參考下2022-05-05Java多線程編程之CountDownLatch同步工具使用實(shí)例
這篇文章主要介紹了Java多線程編程之CountDownLatch同步工具使用實(shí)例,需要的朋友可以參考下2015-05-05Java 線程池_動(dòng)力節(jié)點(diǎn)Java學(xué)院整理
系統(tǒng)啟動(dòng)一個(gè)新線程的成本是比較高的,因?yàn)樗婕暗脚c操作系統(tǒng)的交互。在這種情況下,使用線程池可以很好的提供性能,尤其是當(dāng)程序中需要?jiǎng)?chuàng)建大量生存期很短暫的線程時(shí),更應(yīng)該考慮使用線程池2017-05-05關(guān)于jdk環(huán)境變量配置以及javac不是內(nèi)部或外部命令的解決
這篇文章主要介紹了關(guān)于jdk環(huán)境變量配置以及javac不是內(nèi)部或外部命令的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-01-01Mybatis調(diào)用SQL?Server存儲(chǔ)過程的實(shí)現(xiàn)示例
在軟件開發(fā)過程中,經(jīng)常會(huì)使用到存儲(chǔ)過程,本文就來介紹一下Mybatis調(diào)用SQL?Server存儲(chǔ)過程的實(shí)現(xiàn)示例,具有一定的參考價(jià)值,感興趣的可以了解一下2024-01-01