iOS10語音識別框架SpeechFramework應用詳解

更新時間：2016年09月27日 10:44:51 作者：琿少

在iOS10系統(tǒng)了，apple開放了與語音識別相關的接口，開發(fā)者可以將其應用到自己的App中，實現用戶通過語音進行功能操作。這篇文章主要介紹了iOS10語音識別框架SpeechFramework應用，需要的朋友可以參考下

摘要: iOS10語音識別框架SpeechFramework應用

一、引言

iOS10系統(tǒng)是一個較有突破性的系統(tǒng)，其在Message，Notification等方面都開放了很多實用性的開發(fā)接口。本篇博客將主要探討iOS10中新引入的SpeechFramework框架。有個這個框架，開發(fā)者可以十分容易的為自己的App添加語音識別功能，不需要再依賴于其他第三方的語音識別服務，并且，Apple的Siri應用的強大也證明了Apple的語音服務是足夠強大的，不通過第三方，也大大增強了用戶的安全性。

二、SpeechFramework框架中的重要類

SpeechFramework框架比較輕量級，其中的類并不十分冗雜，在學習SpeechFramework框架前，我們需要對其中類與類與類之間的關系有個大致的熟悉了解。

SFSpeechRecognizer：這個類是語音識別的操作類，用于語音識別用戶權限的申請，語言環(huán)境的設置，語音模式的設置以及向Apple服務發(fā)送語音識別的請求。

SFSpeechRecognitionTask：這個類是語音識別服務請求任務類，每一個語音識別請求都可以抽象為一個SFSpeechRecognitionTask實例，其中SFSpeechRecognitionTaskDelegate協(xié)議中約定了許多請求任務過程中的監(jiān)聽方法。

SFSpeechRecognitionRequest:語音識別請求類，需要通過其子類來進行實例化。

SFSpeechURLRecognitionRequest：通過音頻URL來創(chuàng)建語音識別請求。

SFSpeechAudioBufferRecognitionRequest:通過音頻流來創(chuàng)建語音識別請求。

SFSpeechRecognitionResult：語音識別請求結果類。

SFTranscription：語音轉換后的信息類。

SFTranscriptionSegment：語音轉換中的音頻節(jié)點類。

了解了上述類的作用于其之間的聯(lián)系，使用SpeechFramework框架將十分容易。

三、申請用戶語音識別權限與進行語音識別請求

開發(fā)者若要在自己的App中使用語音識別功能，需要獲取用戶的同意。首先需要在工程的Info.plist文件中添加一個Privacy-Speech Recognition Usage Description鍵，其實需要對應一個String類型的值，這個值將會在系統(tǒng)獲取權限的警告框中顯示，Info.plist文件如下圖所示：

使用SFSpeechRecognize類的requestAuthorization方法來進行用戶權限的申請，用戶的反饋結果會在這個方法的回調block中傳入，如下：

 //申請用戶語音識別權限
 [SFSpeechRecognizer requestAuthorization:^(SFSpeechRecognizerAuthorizationStatus status) { 
 }];

SFSpeechRecognizerAuthorzationStatus枚舉中定義了用戶的反饋結果，如下：

typedef NS_ENUM(NSInteger, SFSpeechRecognizerAuthorizationStatus) {
 //結果未知 用戶尚未進行選擇
 SFSpeechRecognizerAuthorizationStatusNotDetermined,
 //用戶拒絕授權語音識別
 SFSpeechRecognizerAuthorizationStatusDenied,
 //設備不支持語音識別功能
 SFSpeechRecognizerAuthorizationStatusRestricted,
 //用戶授權語音識別
 SFSpeechRecognizerAuthorizationStatusAuthorized,
};

如果申請用戶語音識別權限成功，開發(fā)者可以通過SFSpeechRecognizer操作類來進行語音識別請求，示例如下：

 //創(chuàng)建語音識別操作類對象
 SFSpeechRecognizer * rec = [[SFSpeechRecognizer alloc]init];
 //通過一個音頻路徑創(chuàng)建音頻識別請求
 SFSpeechRecognitionRequest * request = [[SFSpeechURLRecognitionRequest alloc]initWithURL:[[NSBundle mainBundle] URLForResource:@"7011" withExtension:@"m4a"]];
 //進行請求
 [rec recognitionTaskWithRequest:request resultHandler:^(SFSpeechRecognitionResult * _Nullable result, NSError * _Nullable error) {
  //打印語音識別的結果字符串
  NSLog(@"%@",result.bestTranscription.formattedString);
 }];

四、深入SFSpeechRecognizer類

SFSpeechRecognizer類的主要作用是申請權限，配置參數與進行語音識別請求。其中比較重要的屬性與方法如下：

//獲取當前用戶權限狀態(tài)
+ (SFSpeechRecognizerAuthorizationStatus)authorizationStatus;
//申請語音識別用戶權限
+ (void)requestAuthorization:(void(^)(SFSpeechRecognizerAuthorizationStatus status))handler;
//獲取所支持的所有語言環(huán)境
+ (NSSet<NSLocale *> *)supportedLocales;
//初始化方法 需要注意 這個初始化方法將默認以設備當前的語言環(huán)境作為語音識別的語言環(huán)境
- (nullable instancetype)init;
//初始化方法 設置一個特定的語言環(huán)境
- (nullable instancetype)initWithLocale:(NSLocale *)locale NS_DESIGNATED_INITIALIZER;
//語音識別是否可用
@property (nonatomic, readonly, getter=isAvailable) BOOL available;
//語音識別操作類協(xié)議代理
@property (nonatomic, weak) id<SFSpeechRecognizerDelegate> delegate;
//設置語音識別的配置參數 需要注意 在每個語音識別請求中也有這樣一個屬性 這里設置將作為默認值
//如果SFSpeechRecognitionRequest對象中也進行了設置 則會覆蓋這里的值
/*
typedef NS_ENUM(NSInteger, SFSpeechRecognitionTaskHint) {
 SFSpeechRecognitionTaskHintUnspecified = 0,  // 無定義
 SFSpeechRecognitionTaskHintDictation = 1,  // 正常的聽寫風格
 SFSpeechRecognitionTaskHintSearch = 2,   // 搜索風格
 SFSpeechRecognitionTaskHintConfirmation = 3, // 短語風格
};
*/
@property (nonatomic) SFSpeechRecognitionTaskHint defaultTaskHint;
//使用回調Block的方式進行語音識別請求 請求結果會在Block中傳入
- (SFSpeechRecognitionTask *)recognitionTaskWithRequest:(SFSpeechRecognitionRequest *)request
           resultHandler:(void (^)(SFSpeechRecognitionResult * __nullable result, NSError * __nullable error))resultHandler;
//使用代理回調的方式進行語音識別請求
- (SFSpeechRecognitionTask *)recognitionTaskWithRequest:(SFSpeechRecognitionRequest *)request
            delegate:(id <SFSpeechRecognitionTaskDelegate>)delegate;
//設置請求所占用的任務隊列
@property (nonatomic, strong) NSOperationQueue *queue;

SFSpeechRecognizerDelegate協(xié)議中只約定了一個方法，如下:

//當語音識別操作可用性發(fā)生改變時會被調用
- (void)speechRecognizer:(SFSpeechRecognizer *)speechRecognizer availabilityDidChange:(BOOL)available;

通過Block回調的方式進行語音識別請求十分簡單，如果使用代理回調的方式，開發(fā)者需要實現SFSpeechRecognitionTaskDelegate協(xié)議中的相關方法，如下：

//當開始檢測音頻源中的語音時首先調用此方法
- (void)speechRecognitionDidDetectSpeech:(SFSpeechRecognitionTask *)task;
//當識別出一條可用的信息后 會調用
/*
需要注意，apple的語音識別服務會根據提供的音頻源識別出多個可能的結果 每有一條結果可用 都會調用此方法
*/
- (void)speechRecognitionTask:(SFSpeechRecognitionTask *)task didHypothesizeTranscription:(SFTranscription *)transcription;
//當識別完成所有可用的結果后調用
- (void)speechRecognitionTask:(SFSpeechRecognitionTask *)task didFinishRecognition:(SFSpeechRecognitionResult *)recognitionResult;
//當不再接受音頻輸入時調用 即開始處理語音識別任務時調用
- (void)speechRecognitionTaskFinishedReadingAudio:(SFSpeechRecognitionTask *)task;
//當語音識別任務被取消時調用
- (void)speechRecognitionTaskWasCancelled:(SFSpeechRecognitionTask *)task;
//語音識別任務完成時被調用
- (void)speechRecognitionTask:(SFSpeechRecognitionTask *)task didFinishSuccessfully:(BOOL)successfully;

SFSpeechRecognitionTask類中封裝了屬性和方法如下：

//此任務的當前狀態(tài)
/*
typedef NS_ENUM(NSInteger, SFSpeechRecognitionTaskState) {
 SFSpeechRecognitionTaskStateStarting = 0,  // 任務開始
 SFSpeechRecognitionTaskStateRunning = 1,  // 任務正在運行
 SFSpeechRecognitionTaskStateFinishing = 2,  // 不在進行音頻讀入 即將返回識別結果
 SFSpeechRecognitionTaskStateCanceling = 3,  // 任務取消
 SFSpeechRecognitionTaskStateCompleted = 4,  // 所有結果返回完成
};
*/
@property (nonatomic, readonly) SFSpeechRecognitionTaskState state;
//音頻輸入是否完成
@property (nonatomic, readonly, getter=isFinishing) BOOL finishing;
//手動完成音頻輸入 不再接收音頻
- (void)finish;
//任務是否被取消
@property (nonatomic, readonly, getter=isCancelled) BOOL cancelled;
//手動取消任務
- (void)cancel;

關于音頻識別請求類，除了可以使用SFSpeechURLRecognitionRequest類來進行創(chuàng)建外，還可以使用SFSpeechAudioBufferRecognitionRequest類來進行創(chuàng)建：

@interface SFSpeechAudioBufferRecognitionRequest : SFSpeechRecognitionRequest

@property (nonatomic, readonly) AVAudioFormat *nativeAudioFormat;
//拼接音頻流
- (void)appendAudioPCMBuffer:(AVAudioPCMBuffer *)audioPCMBuffer;
- (void)appendAudioSampleBuffer:(CMSampleBufferRef)sampleBuffer;
//完成輸入
- (void)endAudio;

@end

五、語音識別結果類SFSpeechRecognitionResult

SFSpeechRecognitionResult類是語音識別結果的封裝，其中包含了許多套平行的識別信息，其每一份識別信息都有可信度屬性來描述其準確程度。SFSpeechRecognitionResult類中屬性如下：

//識別到的多套語音轉換信息數組 其會按照準確度進行排序
@property (nonatomic, readonly, copy) NSArray<SFTranscription *> *transcriptions;
//準確性最高的識別實例
@property (nonatomic, readonly, copy) SFTranscription *bestTranscription;
//是否已經完成 如果YES 則所有所有識別信息都已經獲取完成
@property (nonatomic, readonly, getter=isFinal) BOOL final;

SFSpeechRecognitionResult類只是語音識別結果的一個封裝，真正的識別信息定義在SFTranscription類中，SFTranscription類中屬性如下：

//完整的語音識別準換后的文本信息字符串
@property (nonatomic, readonly, copy) NSString *formattedString;
//語音識別節(jié)點數組
@property (nonatomic, readonly, copy) NSArray<SFTranscriptionSegment *> *segments;

當對一句完整的話進行識別時，Apple的語音識別服務實際上會把這句語音拆分成若干個音頻節(jié)點，每個節(jié)點可能為一個單詞，SFTranscription類中的segments屬性就存放這些節(jié)點。SFTranscriptionSegment類中定義的屬性如下：

//當前節(jié)點識別后的文本信息
@property (nonatomic, readonly, copy) NSString *substring;
//當前節(jié)點識別后的文本信息在整體識別語句中的位置
@property (nonatomic, readonly) NSRange substringRange;
//當前節(jié)點的音頻時間戳
@property (nonatomic, readonly) NSTimeInterval timestamp;
//當前節(jié)點音頻的持續(xù)時間
@property (nonatomic, readonly) NSTimeInterval duration;
//可信度/準確度 0-1之間
@property (nonatomic, readonly) float confidence;
//關于此節(jié)點的其他可能的識別結果 
@property (nonatomic, readonly) NSArray<NSString *> *alternativeSubstrings;

溫馨提示：SpeechFramework框架在模擬器上運行會出現異常情況，無法進行語音識別請求。會報出kAFAssistantErrorDomain的錯誤，還望有知道解決方案的朋友，給些建議，Thanks。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

全面解析Objective-C中的block代碼塊的使用
這篇文章主要介紹了Objective-C中的block代碼塊的使用,包括閉包等重要特性的講解,需要的朋友可以參考下
2015-11-11
iOS開發(fā)中實現顯示gif圖片的方法
這篇文章主要介紹了iOS開發(fā)中實現顯示gif圖片的方法,代碼基于傳統(tǒng)的Objective-C,需要的朋友可以參考下
2015-09-09
iOS?button響應流程圖文詳解
這篇文章主要為大家介紹了iOS?button響應流程圖文詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2022-11-11
iOS實現去除html標簽的方法匯總
相信大家在做網站的時候，經常會遇到去除html標簽的問題，下面這篇文章主要給大家總結介紹了關于iOS如何實現去除html標簽的一些方法，文中通過示例代碼介紹的非常詳細，需要的朋友可以參考借鑒，下面來一起看看吧。
2017-10-10
iOS中實現imageView任意角度旋轉的方法
這篇文章主要給大家介紹了關于iOS中實現imageView任意角度旋轉的方法，文中通過示例代碼介紹的非常詳細，對大家學習或者工作具有一定的參考學習價值，需要的朋友下面隨著小編來一起學習學習吧。
2017-12-12
IOS打開照相機與本地相冊選擇圖片實例詳解
這篇文章主要介紹了IOS打開照相機與本地相冊選擇圖片實例詳解的相關資料,需要的朋友可以參考下
2017-06-06
iOS實現側滑欄效果
這篇文章主要為大家詳細介紹了iOS實現側滑欄效果，點擊側邊拉出相應菜單，感興趣的小伙伴們可以參考一下
2016-08-08
iOS webview捕獲H5按鈕方法示例代碼
這篇文章主要給大家介紹了關于iOS webview捕獲H5按鈕方法的相關資料，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2019-01-01
IOS中用正則表達式判斷輸入的內容為8-16位且同時包含數字和字母
這篇文章主要介紹了IOS中用正則表達式判斷輸入的內容為8-16位且同時包含數字和字母,需要的朋友可以參考下
2017-06-06
IOS在SwiftUI中顯示模態(tài)視圖的實例代碼
這篇文章主要介紹了IOS在SwiftUI中顯示模態(tài)視圖的實例代碼,代碼簡單易懂，非常不錯，具有一定的參考借鑒價值，需要的朋友可以參考下
2020-02-02