人工智能并不智能
很幸运终于在今年年初加入人工智能行业,最近在做智能音箱项目,一些小小感受。智能语音行业在ASR,TTS目前的水平是可以的,ASR的准确识别率达到97%,TTS的语音合成技术也能达到真人效果,谷歌预约理发的演示已经充分展示了TTS的效果。中间的自然语言处理,对话管理,自然语言生成这三部分是对话系统的暗箱部分,它们智能吗?回答是不智能,用户只要稍微变一下说法,或者稍微有点推理性质的说法,比如“最近的法定假日是什么时候?”,大部分对话系统就歇菜了,至少本人亲自试了市面上的四款智能音箱,都没有回答出这么so easy的问题。
为什么对话系统不能像电影“her”一样自如的交流呢?因为语言只是复杂三维世界里的二维输出,也就是说一句话的背后有一个复杂的知识体系和认知体系,人与人的对话基于这个体系之上。有没有发现,和朋友在一起,话特别多,因为你们又一个共同的认知体系;和陌生人好像就没什么话说,只能聊一些很浅显的东西,这个浅显的东西就是大家都掌握的常识(共同的认知),一旦发现你们有共同爱好或观点(共同的认知),就会就此畅谈。
如果对机器说“好无聊啊,想出去逛逛有没有推荐的地方”,字面意思推荐一个地点,可以调用第三方服务商接口,按照服务商已经定义好的排序机制给用户推荐,可能推荐三个或者五个。但是现实对话中,人们会基于对话人的认知和常识给予回答,去某个地方势必要考虑到天气,或者这个地方最近刚去过,当然不一定非要去户外的,也可能是看个电影,最好是喜剧的,或者朋友正在搞露营。归纳为两点:第一点,“推荐个地方”并不是唯一解决方案;第二点,具体推荐什么类型的地方,需要一个庞大的知识体系作为判断依据,这些并不是现在的对话系统能做到的。这也是为什么人工智能在图像处理方面比语音对话更成熟,图像“所见即所得”,语音“一句话只是冰山一角”
有人会说,多轮对话好像蛮智能的,那目前的多轮对话是怎么实现的呢?答案是“填槽”,目前市面上的多轮对话管理都是采用这种方法,什么是填槽?举个例子,比如说“订一张去恩施的车票”,判断出意图是“订车票”,查找订车票订表,订票需要“出发地”,“目的地”,“时间”三个必要条件,也就是三个槽位,“订一张去恩施的车票”目的地是恩施,所以还有两个槽位没有填,系统会反问“您是从上海触发吗?”,“您是要订今天的车票吗”,直到槽位全部填上,系统才会进入下一步查找推荐,具体的说法是由人设定的,具体有多少槽位也是由人设定的,确切的说是由产品经理设定的。如果你说“订一张去恩施的车票,便宜的,靠窗的,时间短的”,它不会识别“便宜的,靠窗的,时间短的”,也不会告诉你价格更便宜的机票,也许你会说,可以在表的后面加时间,价格,位置三个字段,确实现在大部分也都是用这样的方法做的,但是用户的说法千千万万,通过这样的方法只是看起来智能,不是真正的智能,目前是状态是:有多少智能就有多少人工。
(并不是在唱衰,只是更客观理性一点:)
AIPM做什么呢?
1.AIPM就是让不那么智能的东西看起来很智能
2.为现有的智能技术寻求更多的落地场景
3.为已有的问题提供更优的解决方案
AIPM要掌握几个技能
1.懂商业:即理解价值
对话产品的价值不在对话上,而是通过对话交互为用户解决了什么问题。一个本来就很强的APP,就不要想着去用对话重新做一遍。反而是一些APP/WEB还没有能很好解决的问题,可以多花点时间研究看看。
现在很多项目都是强行用新技术来套用某个领域或者某个应用场景。但是这些项目都没有去验证用户是不是真正有这样的痛点;或者用户的痛点是不是足够让他们丢弃已有的习惯,使用一个新的产品,适应一个新的方式;或者这个加上人工智能后,是不是真正解决了一个之前解决不了的问题。
2.懂技术:即理解手中的工具
AI,算法,IOT,5G等等,对产品经理来说,这些都是筑梦的工具,PM要了解每个工具的特点,用途。
在智能语音领域,最新的技术和论文都全部公开,所以大家的工具都差不多,成果如何,完全取决于艺术家。
现在AIPM手中有深度学习,那么就应该了解它擅长什么和不擅长什么,以避免提出太过于荒谬的需求,导致开发的同学向你发起攻击。了解深度学习的特性,会直接帮助我们判断哪些产品方向更容易出效果。
比如,做一个推荐餐厅的AI,就比做一个下围棋的AI难太多了。围棋的输入包含了决策所需要的全部信息,输出只有输和赢。而餐厅推荐,输入有限(无法包含决策所需要的全部信息),输出又是开放的。总之,需要系统数据以外的信息(需要思维)参与的都很难出效果。再举个无人车的例子,路上一个垃圾桶,一个儿童推车,必须撞一个,无人车怎么判断撞哪个?人是怎么判断的呢?(有时感觉,我们对人的认知都没有研究很透彻)
3.懂人:心理和语言
这个不仅是对话AIPM,所有PM都需要,指的是当用户在说话的时候,对他脑中的模型的理解,即先揣摩心理,再恰当说话。
那对话系统怎么把握说话人脑中的对话进程?甚至把握说话人的世界模型?怎么理解语言的言外之意?
(本文主要是讲人工智能技术相关的思考,基本的产品技能不做展开)