首先,让我们来看一下智能语音的技术组组成。严格来说,智能语音技术包括语音识别、语音合成。但是提到智能语音助手,实际上指的就是智能语音机器人了。
智能语音机器人的工作流程和模块构成大概如下图。
简单来说,就是能够支持与人类进行以语音形式进行的自然语言语言对话的机器人。
我们梳理一下说话的过程,1. 听见对方的话,2. 思考对方的意图(对方说的话是什么意思?他的说这话是出于什么原因,想从我这里得到什么样的反馈?这句话和他的上句话有什么关联?),3. 构思如何回答并组织语言,4. 将语言说出来。
语音对话机器人的工作方式即是如此。
1. 语音识别(ASR)模块
语音识别模块负责将语音转化成文字,是机器人的“耳朵”,解决的是“听见”的问题。
2. 自然语言理解(NLU)模块
该模块负责对上一步转化好的文本进行语义分析,将自然语言转换成机器能懂的语言内容。这一部分当然是最复杂的模块之一。
自然语言丰富而复杂,同样的句子在不同语境下,甚至不同语气下所表述的意义就大相径庭。比如,“中国男足谁也赢不了”和“中国女足谁也赢不了”,表达的意思完全相反,上哪说理去。加之词语省略、代词所指,都增加了人工智能对于自然语言的理解难度。而且,不管是说话者有意或无意,都有可能表达出模棱两可的意思。这也是自然语言的魅力所在。
自然语言理解模块,解决的是中文分词、词性标注、命名实体识别、共指消解、句法分析、语义角色标注等对句子本身语义分析的问题。
3.对话管理模块
上下文管理模块,解决的是对话上下文语境关联问题。不结合上下文,很难准确理解单独一句对话所表达的意思。
流程管理,负责决定机器人用什么“意图”去回复对话,也就说,它负责输出机器人要表达的“中心思想”。
4. 知识库模块
自然语言中包含大量的知识。这些知识包含了生活知识和专业领域的知识。除非这些知识都存在于机器人的“大脑”里,否则同样会影响其对对话语义的理解。
知识库模块,解决的是知识背景问题。
从简单的Q&A问答对的形式到知识图谱,知识库的组织和存储形式也多种多样。
到这里,机器人就分析出来了说话人的“意图”。显然,如果意图识别这一步错了,机器人通过错误的意图给出的应答,一定也是错误的,这就是“人工智障”产生的原因。机器人“脑子”坏掉了,可不就智障了。
5. 自然语言生成(NLG)
自然语言生成,就是把机器人输出的“意图”组织成自然语言文本的过程。
6.语音合成(TTS)
在这一步里,文本语言被合成语音。
至此,语音机器人就完成了一次对话交互过程。
智能语音的发展方向
对话即平台
随着人工智能技术的飞速发展,作为最友好的人机交互方式之一,自然语言对话技术在人们生活中的应用深度和广度日益增大。无论是面向个人的智能音箱、语音助手,还是面向企业的智能客服、智能电话机器人,智能语音对话都拥有着广泛的应用场景。
多样化的需求,对智能对话技术也提出更高的挑战。一方面,智能对话是相对专业的技术领域,对于技术水平、数据质量、处理速度都有着较高要求;另一方面,针对不同行业、不同场景搭建起来的机器人对话逻辑不能复用和迁移,导致了大量繁琐的工作量,间接提高了智能对话服务的使用成本。
因此,“对话即平台(Conversationas Platform)”是未来智能语音领域发展的重要方向。平台能够为企业和个人开发者提供专业、可控、稳定的智能对话交互服务;能够精准理解用户意图,支持可视化对话流程配置,广泛适用于智能客服问答、智能办公助理、售前业务咨询等场景。
多模态对话
外行人看对话机器人,往往喜欢看它能不能“兜得住”所有聊天,甚至看他会不会适时的抖个机灵“皮”一下。
事实上在不同的场景中,我们对于对话机器人的期待是不一样的。
比如银行客服机器人,只要能够应答和处理常用银行业务就足够了,它们不需要知道最近的流行梗是什么,这类机器人我们称为“任务型”对话机器人。
再比如,对于故障诊断助手机器人来说,它只要能够针对常见故障回答问题就ok了,这类机器人我们称为“问答型”对话机器人。
而对于娱乐、生活助手、陪伴型的机器人来说,就需要有开放域的对话能力了,这类机器人我们称为“闲聊型”对话机器人。
未来,支持多模态对话的机器人将成为常态。
基于多行业知识图谱的自动创建知识库
机器人的“知识储备”离不开庞大的知识库。基于多行业知识图谱进行标准化流程化的知识库自动创建,能够大大提高了机器人训练速度,节省人力和时间成本。
情绪识别
基于语音信号的情绪识别在近几年得到了广泛的关注和研究。语音情感识别的主要内容就是建立一种能够从语音中分析和识别人类情感的计算系统,实现人与机器的人性化交流。
想象一下,如果机器人能够识别你的情绪,甚至能够输出带有情绪的语音对话,是不是一件很酷的事情。
相信随着人工智能、大数据、区块链等技术的发展,在未来,智能语音对话技术能够覆盖更多应用场景,更智能化化、更个性化、也更安全。