2018年,有一个视频在养宠圈中广泛流传,引无数养宠人士潸然泪下。
视频的主角是动物行为专家HeidiWright和一只生命即将走到尽头的导盲犬,HeidiWright以她的能力为媒介,将导盲犬的肢体动作和声音翻译成人类语言,帮助它和主人进行最后的交流。在HeidiWright的转述中,导盲犬表示它为无法继续守护主人感到惋惜,还不停地呼叫另一只狗伙伴,让它照顾好主人。
这段视频让人们感动的同时,也让许多人感到遗憾,因为绝大部分人都无法像上文提及的主人那般幸运,能够倾听到狗的心声。
无数人曾设想过,是否有可能出现一种翻译工具,能够将宠物语言转换为人类语言呢?
人宠语言互译并非伪命题,十年内或可“美梦成真”
Slobodchikoff教授称,未来5到10年,人类使用一种手机大小的装置——宠物翻译器,便能与动物进行“对话”。
这位北亚利桑那大学的生物教授花了30年时间研究草原土拨鼠的行为,他用AI软件记录并分析草原土拨鼠的叫声,将叫声翻译成英语后,发现这些草原上的小家伙们“具有语言所有方面的复杂通信系统”。而目前,他正试图筹集资金来开发猫和狗的语音翻译设备。
不过,在这条未知明暗的道路上探索的显然不止他一人。“宠物翻译器”的低配版就被放上了淘宝,取得了可观的销量,卖家声称这个设备经实测翻译准确率高达80%。纵览评论,“好玩”“有意思”“灵气”之类的好评不在少数,从中我们也可以得知消费者对宠物翻译器的需求很大。
如果按Slobodchikoff教授所说的,这项技术或许能在十年内成为现实,它能在小范围内满足人与宠物的交流沟通,在大范围内满足人类一统动物世界的梦想。
自动语音识别技术和语音翻译技术助力,宠物情绪传达不再是“镜中花、水中月”
我们发现,低配版宠物翻译器运用的技术原理就是对狗的叫声、动作等生物信号进行采样,对获取的数据进行频谱分析,把得到的翻译语言以中文形式语音播报出来。但是由于采样的范围和机器内存等局限性,这种低配版宠物翻译器在翻译的准确度和丰富性方面尚有待提高。
不过,现在也有了好消息,为实现人狗沟通而设计的“No More Woof”耳机就是其中之一。
“No More Woof”是由北欧发明与发现协会(NCID)开发的,应用的是三个不同技术领域的最新技术的组合,即脑电图(EG)E传感、微计算和专用脑—机接口(BCI)软件,它主要由脑电图耳机、Raspberry Pi处理器和一款便携音箱组成。
这些传感器是脑电图记录器,它可以降低读数,减少离子电流在狗脑中的电压波动。然后由微型计算机拾取波动,在这种情况下形成一个Raspberry Pi,并对它做出解释。
例如大脑中有一种特定的电信号用来定义疲劳感,还有一些最容易被发现的神经模式:“我饿了”“我累了”“我很好奇那是谁”“我想尿尿”等。耳机中的传感器会捕捉这种特殊的电信号,并将它们转化为人们能够听懂的语言。
结合基础的自动语音识别技术和语音翻译技术,计算机算法可以大致地分辨出宠物的情绪,这些是短时间内宠物语言翻译能实现的。至于要通过宠物翻译器来了解动物伙伴们真正的内心世界,我们还期待人类进一步的“大动作”。
如果要达到精确翻译,还需要解决哪些问题?
动物的大脑并不如人类的大脑复杂,人脑的活动通常有一个明确的目标导向,动物的大脑却不一定。人的各种语言之间的转换也具有相对窄范围的对应关系,而动物的语言与人类的语言则对应范围很宽。
例如狗会发出急促的叫声,可能是因为它想要向主人乞食,也可能是因为警惕陌生人,还可能是因主人不陪自己玩而生气。如果它想表达的是这一种情绪,而AI的翻译器却传达为另一种,那么就容易使人和宠物之间的沟通误入“歧途”,从而完全丧失宠物语言翻译的意义。
那么是否有可能通过AI实现完全精准的宠物语言翻译呢?目前来说还有一定难度,在我们看来,AI在宠物语言翻译上想要有所突破还得克服以下这些困难:
1. 数据关
要明确动物语言所表达的具体意义,我们需要先对动物的叫声和即时脑电波动进行完整的采样比对,再在这些数据的基础上建立数据库。
而这两种数据都具有广泛性和多样性。以犬类为例,不同的犬种声带粗细宽窄各不相同,针对同一情景发出的叫声分贝高低和尖细情况也不同,而刺激犬类发出叫声的场景又是难以穷尽的,单收集犬类的声音样本就是一个无比巨大的工程,数据库自然也难以完善。
2. 技术关
一个AI翻译产品做到翻译精确至少需要攻破几个难题:形式端,拍译要攻克图像识别,同声翻译要攻克语音识别;内容端,攻克文本语言分析、大数据。而AI还没有发展到能够精确地处理这些问题的阶段,机器缺乏对视觉场景、听觉场景、自然语言处理的常识判断。
如搜狗搜索在2017年6月的分享会上发布了创新产品搜狗翻译App,它应用了基于生物学习的神经网络机器翻译(NMT)系统,将翻译精确度提升到了一个前所未有的高水准。然而它在翻译效果的“信、达、雅”上,仍然只达到了“信”的层面,对语言背后的幽默、情感等丰富含义的解读和人们所期待的水准还有些距离。
3. 语义关
语料积累、场景收集和副语言与文化背景成痛痒之地。AI翻译在文本或语言的寓意分析方面做得还不够好。与人类语言相比,动物语言都是即时信号,信息内容全部关乎当下,或示威,或示警,或示爱等,我们从中看不到用语言激起对过去联想的迹象,并且单个个体能发出的声音形式太单一了,蕴含在其中的丰富信息难以明确表达。
宠物翻译的难点不仅在于声音的收集,更在于声音背后具体含义的对应。
这种对应是宽范围的,难以精确判断的,机器缺乏对视觉场景、听觉场景、自然语言处理的常识判断,无法精确理解语音所表达的内涵,甚至在这个方面还比不上人类对动物语言的理解。人可以根据生活经验来理解动物语言,例如看到狗冲着陌生人叫,人们可以推测它是在防备这个陌生人,而机器可能就没办法很好地理解,从而导致判断错误。
4. “历史包袱”,AI难以跟上生命体的学习进程
狗的叫声在一定历史时期并不是狗的叫声在一定历史时期并不是一成不变的,狗凭借自身的灵性及主人的后天驯养,具备学习能力。例如狗类中智商排名第一的边境牧羊犬智力水平已经相当于6~8岁的小孩,经过学习,在放牧时,它会用不同的叫声来驱使羊群,控制羊群走向。
还有一些宠物狗,甚至会在人类的刻意训练下发出类似“妈妈”的叫声,宠物语言在日新月异的变化,计算机却很难去掉语言的“历史包袱”,这些也造成了AI宠物翻译的困境。
总之,AI能做的就是不断改进自身的功能,我们要用科学手段完善数据库、内容、语料和场景,将形式和内容双管齐下,在坚实的地基上建立起实现人和动物“有效沟通”的“巴别塔”。