【iOS】Speech语言识别初探(swift)

RT:
一直以来,对Siri的语音识别功能很感兴趣,但一直没有时间去研究,今天心血来潮,便找了点资料,自己动手试着做了一个简单的Dome,效果如下——

最终效果:

动图效果

制作思路:

  1. 在Info.plist文件添加麦克风和语言识别权限描述
  2. 引入Speech语言识别包
  3. 真机测试(必须真机)

Microphone Usage Description和Speech Recognition Usage Description使用意图描述,内容随便写!


Info.plist

requiresOnDeviceRecognition属性可以设置为true,不需要访问服务器,貌似有使用数量限制!仅限与设备上就没有

if #available(iOS 13, *) {
    // 将此属性设置为true以防止SFSpeechRecognitionRequest通过网络发送音频
    // 设备上的请求将不那么准确。
    recognitionRequest.requiresOnDeviceRecognition = true
}

并且可以识别本地音频,不过最好是将音频的时间限制在1分中以内!
本地音频文件识别部分,我注释掉了,只留实时录制音频识别部分的代码,感兴趣可以取消注释测试看看效果!

///////////  识别音频文件
/*============================================================================*/
//    @objc private func recognizeBtnDidClick(_ sender: UIButton) {
//        var info = ""
//        sender.isSelected = !sender.isSelected
//
//        if sender.isSelected {
//            info = "正在识别···"
//            print(info)
//            sender.setTitle(info, for: .normal)
//            sender.backgroundColor = .orange
//            let path = Bundle.main.path(forResource: "Track 1_004", ofType: "wav")
//            let url: NSURL = NSURL.init(fileURLWithPath: path!)
//            recognizeFile(url: url)
//
//        } else {
//            info = "停止识别!"
//            print(info)
//            sender.setTitle(info, for: .normal)
//            sender.backgroundColor = .blue
//        }
//    }
    
//    // 音频文件识别
//    func recognizeFile(url:NSURL) {
//
//        guard let myRecognizer = SFSpeechRecognizer.init(locale: Locale.init(identifier: "zh-CN")) else { return }
//
//        if !myRecognizer.isAvailable { return }
//
//        let request = SFSpeechURLRecognitionRequest(url: url as URL)
//        myRecognizer.recognitionTask(with: request) { (result, error) in
//            guard let result = result else { return }
//
//            self.textView.text = result.bestTranscription.formattedString
//            if result.isFinal {
//                print("Speech in the file is \(result.bestTranscription.formattedString)")
//                self.textView.text = result.bestTranscription.formattedString
//            }
//        }
//    }
/*============================================================================*/

官方也有相关的案例,感兴趣可以下载过来学习研究……(-)

完整代码:

//
//  SpeechVC.swift
//  UIKit-basic
//
//  Created by Qire_er on 2022/1/16.
//

import UIKit
import Speech

class SpeechVC: UIViewController {
    
    var textView: UITextView! // 用于显示识别文本
    var recognizeBtn: UIButton! // 录制按钮
    
    // 定义语言识别需要用到的几个对象的引用
    /*====================================================================================*/
    private let speechRecognizer = SFSpeechRecognizer(locale: Locale(identifier: "zh-CN"))! // 创建与指定区域设置关联的语音识别器
    private var recognitionRequest: SFSpeechAudioBufferRecognitionRequest? // 语音识别的请求
    private var recognitionTask: SFSpeechRecognitionTask? // 语音识别的任务类
    private let audioEngine = AVAudioEngine() // 音频引擎,用于音频输入
    /*====================================================================================*/
    
    private let recodingBG: UIColor = .red // 定义【正在录制】按钮背景色
    private let enableBG: UIColor = .blue // 定义【可用状态】按钮背景色
    private let disableBG: UIColor = .systemGray3 // 定义【禁用状态】按钮背景色
    
    // 添加UI
    override func viewDidLoad() {
        super.viewDidLoad()

        let vStack = UIStackView()
        vStack.translatesAutoresizingMaskIntoConstraints = false
        vStack.axis = .vertical
        
        textView = UITextView()
        textView.font = .boldSystemFont(ofSize: 46)
        textView.backgroundColor = .systemGray5
        
        recognizeBtn = UIButton()
        recognizeBtn.setTitle("开始录制", for: .normal)
        recognizeBtn.setTitleColor(UIColor.gray, for: .disabled)
        recognizeBtn.addTarget(self, action: #selector(recordButtonTapped), for: .touchUpInside)
        recognizeBtn.isEnabled = false  // 默认禁用
        
        vStack.addArrangedSubview(textView)
        vStack.addArrangedSubview(recognizeBtn)
        
        view.addSubview(vStack)
        view.backgroundColor = .white
        
        NSLayoutConstraint.activate([
            vStack.leftAnchor.constraint(equalTo: view.leftAnchor, constant: 15),
            vStack.rightAnchor.constraint(equalTo: view.rightAnchor, constant: -15),
            vStack.topAnchor.constraint(equalTo: view.safeAreaLayoutGuide.topAnchor, constant: 15),
            vStack.bottomAnchor.constraint(equalTo: view.safeAreaLayoutGuide.bottomAnchor, constant: -15),
            recognizeBtn.heightAnchor.constraint(equalToConstant: 80)
        ])
    }
    
    override func viewDidAppear(_ animated: Bool) {
        super.viewDidAppear(animated)
        speechRecognizer.delegate = self // 设置代理
        
        // MARK: 请求语音识别权限
        SFSpeechRecognizer.requestAuthorization { (status) in
            print("status = \(status.rawValue)")
            
            OperationQueue.main.addOperation {
                switch status {
                case .authorized :  // 用户已授权
                    self.recognizeBtn.isEnabled = true
                    self.recognizeBtn.backgroundColor = .blue
                    
                case .notDetermined :  // 用户未授权
                    self.recognizeBtn.isEnabled = false
                    self.recognizeBtn.setTitle("语音识别未经授权!", for: .disabled)
                    self.recognizeBtn.backgroundColor = self.disableBG
                    
                case .denied :  // 用户拒绝
                    self.recognizeBtn.isEnabled = false
                    self.recognizeBtn.setTitle("用户拒绝访问语音识别!", for: .disabled)
                    self.recognizeBtn.backgroundColor = self.disableBG
                    
                case .restricted :  // 设备不支持
                    self.recognizeBtn.isEnabled = false
                    self.recognizeBtn.setTitle("语音识别不支持此设备!", for: .disabled)
                    self.recognizeBtn.backgroundColor = self.disableBG
                    
                default:  // 默认情况
                    self.recognizeBtn.isEnabled = false
                    self.recognizeBtn.backgroundColor = self.disableBG
                }
            }
        }
    }
    
    // 录制方法
    private func startRecording() throws {
        
        // 取消上一次正在识别任务(如果有的话)
        recognitionTask?.cancel()
        self.recognitionTask = nil
        
        // 配置应用程序的音频会话
        let audioSession = AVAudioSession.sharedInstance() // 管理音频硬件资源的分配
        try audioSession.setCategory(.record, mode: .measurement, options: .duckOthers) // 设置音频会话的类别、模式和选项。
        try audioSession.setActive(true, options: .notifyOthersOnDeactivation) // 激活音频会话
        let inputNode = audioEngine.inputNode // inputNode|outputNode分别对应硬件的麦克风和扬声器

        // 创建并配置语音识别请求
        recognitionRequest = SFSpeechAudioBufferRecognitionRequest() // 从捕获的音频内容(如来自设备麦克风的音频)识别语音的请求
        guard let recognitionRequest = recognitionRequest else { fatalError("无法创建SFSpeechAudioBufferRecognitionRequest对象") }
        
        // 设置在音频录制完成之前返回结果
        // 每产生一种结果就马上返回
        recognitionRequest.shouldReportPartialResults = true
        
        // 将语音识别数据仅限于设备上
        if #available(iOS 13, *) {
            // 将此属性设置为true以防止SFSpeechRecognitionRequest通过网络发送音频
            // 设备上的请求将不那么准确。
            recognitionRequest.requiresOnDeviceRecognition = true
        }
        
        // 为语音识别会话创建识别任务
        // 保留对任务的引用,以便可以取消该任务
        recognitionTask = speechRecognizer.recognitionTask(with: recognitionRequest) { result, error in
            var isFinal = false
            
            if let result = result {
                // 使用识别结果更新文本视图
                self.textView.text = result.bestTranscription.formattedString
                isFinal = result.isFinal
                print("【识别内容】\(result.bestTranscription.formattedString)")
            }
            
            if error != nil || isFinal {
                // 如果出现问题,停止识别语音
                self.audioEngine.stop()
                inputNode.removeTap(onBus: 0)

                self.recognitionRequest = nil
                self.recognitionTask = nil

                self.recognizeBtn.isEnabled = true  // 设置按钮为可用状态
                self.recognizeBtn.setTitle("开始录制", for: []) // 设置按钮文字
                self.recognizeBtn.backgroundColor = self.enableBG
            }
        }

        // 配置麦克风输入
        let recordingFormat = inputNode.outputFormat(forBus: 0)
        inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer: AVAudioPCMBuffer, when: AVAudioTime) in
            self.recognitionRequest?.append(buffer)
        }
        
        audioEngine.prepare()
        try audioEngine.start()
        
        // 提示用户开始录制
        textView.text = "点击【开始录制】···"
    }
    
    // 定义按钮点击处理函数
    @objc private func recordButtonTapped() {
        if audioEngine.isRunning {
            audioEngine.stop()
            recognitionRequest?.endAudio()
            recognizeBtn.isEnabled = false
            recognizeBtn.setTitle("停止录制", for: .disabled)
        } else {
            do {
                try startRecording()
                recognizeBtn.setTitle("停止录制", for: [])
                recognizeBtn.backgroundColor = recodingBG
            } catch {
                recognizeBtn.setTitle("录音不可用!", for: [])
                recognizeBtn.backgroundColor = self.disableBG
            }
        }
    }
    
///////////  识别音频文件
/*============================================================================*/
//    @objc private func recognizeBtnDidClick(_ sender: UIButton) {
//        var info = ""
//        sender.isSelected = !sender.isSelected
//
//        if sender.isSelected {
//            info = "正在识别···"
//            print(info)
//            sender.setTitle(info, for: .normal)
//            sender.backgroundColor = .orange
//            let path = Bundle.main.path(forResource: "Track 1_004", ofType: "wav")
//            let url: NSURL = NSURL.init(fileURLWithPath: path!)
//            recognizeFile(url: url)
//
//        } else {
//            info = "停止识别!"
//            print(info)
//            sender.setTitle(info, for: .normal)
//            sender.backgroundColor = .blue
//        }
//    }
    
//    // 音频文件识别
//    func recognizeFile(url:NSURL) {
//
//        guard let myRecognizer = SFSpeechRecognizer.init(locale: Locale.init(identifier: "zh-CN")) else { return }
//
//        if !myRecognizer.isAvailable { return }
//
//        let request = SFSpeechURLRecognitionRequest(url: url as URL)
//        myRecognizer.recognitionTask(with: request) { (result, error) in
//            guard let result = result else { return }
//
//            self.textView.text = result.bestTranscription.formattedString
//            if result.isFinal {
//                print("Speech in the file is \(result.bestTranscription.formattedString)")
//                self.textView.text = result.bestTranscription.formattedString
//            }
//        }
//    }
/*============================================================================*/
}

// MARK: SFSpeechRecognizerDelegate
extension SpeechVC: SFSpeechRecognizerDelegate {
    public func speechRecognizer(_ speechRecognizer: SFSpeechRecognizer, availabilityDidChange available: Bool) {
        if available {
            recognizeBtn.isEnabled = true
            recognizeBtn.setTitle("开始录制···", for: [])
        } else {
            recognizeBtn.isEnabled = false
            recognizeBtn.setTitle("语言识别不可用!", for: .disabled)
        }
    }
}

控制台也有相关信息的输出!感觉还是挺强大,值得好好研究……


控制台输出

(==完==)

ps: 以上仅代表个人浅见,如果你有什么高见,也欢迎讨论交流!-

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容