2017年5月20日,在这个浪漫的日子里,集智AI第三期《自然语言处理与产业应用》课程开始了。一群热爱人工智能的小伙伴们放弃了约会,放弃了玩耍,一起来到美丽的北京亦庄锋创产业园,探讨如何让机器更好地理解语言。
首先,集智AI学园的园长张倩为此次课程做了开幕,并邀请了锋创科技有总裁张寒燕女士做了致辞。
张寒燕女士介绍了深知无限人工智能研究院,并热情的欢迎广大科技人才和人工智能创业者入驻锋创。
上午的课程由联想人工智能实验室负责人徐飞玉老师给大家带来《自然语言处理与产业应用》。徐老师优雅、大方、有风度,她的课深深地吸引了我们。
徐老师并没有一上来就讲那些艰深的语言处理技术,而是从语言的基本原理、语言的多义性切入,引起了大家浓厚的兴趣。语言是一门复杂的学科,不同的表达、语境、涵义甚至连人类都不能完全掌握,这也让我们明白了一个好的语言类AI一定是融合了计算机科学学、语言学、心理学的“技术+人文”综合体,绝不仅仅只是几行代码那么简单。
接下来徐飞玉老师给我们讲解了文本分析技术,如何借助行业专家的帮助找到想抽取的信息,如何找到标注好的语料,如何把非结构的文本变成结构化的信息,每一个步骤徐老师都讲得非常耐心和仔细。最后,针对文本大数据分析,徐老师给出了自己的观点。文本大数据具有大容量、多种类、高速度的特点,在处理的过程中可以把非结构化的文本查询处理成结构化的查询检索和答案引擎,要搜集和建立海量信息知识库,并且把非结构数据和结构化数据结合在一起,最终做到高效、强大、可扩展、域自适应。徐老师说开发技术一定要细,不能希望一个model解决所有问题,给了同学们很深的启发和思考。
下午的课程是另一位大咖是华院数据首席数据科学家尹相志老师给大家带来的《中文自然语言理解传统任务》。
在深度学习大行其道的今天,很多技术工程师都希望把大数据丢给神经网络,通过调参直接得到好的结果,但是尹老师告诉我们技术无贵贱,融合才是王道。语言不能脱离语意与场景而独立存在,因此在理解自然语言的任务上,传统方法会是前沿突破的重要关键。尹老师给我们讲解了中文自然语言理解的最重要的基础——中文分词的方法,如何在分词的过程中同时考虑词性放在一起理解,如何构建词向量,如何根据汉字的形音结构探索中文字向量。英文有26个字母,日语有50多个片假名,而中文的常用字却有2万多个,并且中文是世界上少见的一种字和词全部连在一起表达、中间没有空格的语言。汉字是老祖宗留给我们的宝贵的文化遗产,中文的理解具有很高的壁垒,这是无数中国科学家和技术工程师集合智慧想要去攀登的高峰。
最后一部分课程是张江老师的《AI思维与AI创业》。
张江老师深刻地指出在AI的大潮下,我们应该树立机器学习思维,机器学习就是计算的逆运算,用有限的数据生成无限的数据,只管相关不管因果。而深度网络中不同的权重记忆了数据中不同层次的模式,传统机器学习的本质就是特征工程,由人来确定提取特征的规则,深度学习的本质在于特征学习,将提取特征的任务交给机器来完成。更进一步,学习得到的特征还可以迁移,于是便有了迁移学习。深度学习可以看成是一种端到端的模型,输入端、输出端可以分别是图片、语音、文本,不同类型的输入输出组合便给了我们系统性地创造深度学习应用的方法。自由提问环节,大家对人工智能的威胁、是否有终极算法等问题展开了脑洞大开的讨论,大家各抒己见,气氛十分热烈。
一天的课程结束了,晚餐期间大家一起交流着心得体会,集智AI俱乐部不仅带给我们很多知识的干货,更让我们结识了志同道合的小伙伴,非常感谢集智这个大家庭。
下期课程专题《人工智能与金融》
敬请期待
资讯课程可添加园长微信号cancyqian