一.nlp的主要应用与基础技术(个人总结)
应用:
1.翻译(已经做得比较很不错了,但是实时翻译还有所不足)***
2.对话(还有非常对的技术壁垒,可做的东西很多)***
3.文本数据挖掘(eg,情感分析,kaggle竞赛之双高预测)
4.信息检索(eg,百度搜索)
5.文本生成,写诗,写事件报道(一场比赛结束,比赛的信息存在一个数据库里。还有现场直播的解说词,通过时间轴可以找到对应关系。那现在,一场足球比赛结束,马上就要一个体育报道,这个报道就能形成。报道的文字出来之后,还要自动找图片配上去,这就涉及到选哪个图片是最好的,配完图片就形成一个完整体育报道。)
6.其他,如会议系统,如筛选简历(信息抽取),word里语法检查等
如果是语音信号,在使用nlp之前,需要做语音信号处理(个人理解),下图来自于腾讯犀牛鸟计划:
用到的最基础的技术:
分词(中文分词常用jieba,https://blog.csdn.net/flysky1991/article/details/73948971),文本特征提取(把字符串、文本转化为机器学习模型可处理的数值特征:TfidfVectorizer),文本相似度计算(常用于信息检索、数据挖掘、机器翻译等,https://blog.csdn.net/flysky1991/article/details/72786820).......
二.关键的几个问题(摘自msra周明的北大公开课)
(一)有了大数据、神经网络、不断完善的网络结构、云计算、落地场景、未来的NLP会发展的越来越好。有几点预测:
1、未来的口语机器翻译一定是普及的,出国的语言交流将不是问题;
2、聊天系统越来越实用;
3、电脑创作诗词,小说,歌曲将会流行起来;
4、语音助手,物联网,智能家居,智能硬件等等都会因为自然语言的发展而普及起来;
5、与其他AI技术一起再金融、法律、教育、医疗上得到广泛应用。
整体上人工智能会提升人的生活质量,普惠所有人,因此我认为自然语言是未来的一个很好的方向。
(二)自然语言领域还有哪些的题目还能选呢?
神经网络机器翻译还可以在做,例如生词、篇章级的处理还不好,而且领域迁移做的不好,这些领域还可以进一步研究。第二个思路,用小数据集来训练机器翻译系统。
第二个方向,针对问答系统(QA),除了可以针对知识库来做,还可以无结构的文本集,表格图片。第二个和QA有关的是语义分析。
第三个方向是多轮对话,如何更好地建模上下文,甚至用户的不同时期的回复来生成好的回复。
最后还有很多跨学科跨领域的地方,例如歌曲创作等等。
而未来创业呢?主要考虑场景,先从市场需求出发,反推需要的技术。需要大家了解市场,可以通过在公司实习,了解实际需求,来反思学校学到的东西,哪些是用的上的,哪些还不行。也许可以发现我们未来创业的机会。
(三)视频现在是现象级的事件,发展很强劲,那么关于视频,它和自然语言怎么结合,未来会爆发出哪些和自然语言有关的应用场景?
现在的趋势是图文结合越来越紧密,一个图用关键词和一段话进行描述,而视频也是一样的,这方面的研究是方兴未艾,没有做的很好,假设这个技术越来越好的情况下,就能产生很多应用。
把物理和数字联系起来,例如用照相机对实物拍照时,电脑已经知道这个图景的属性,将这些属性再经过自然语言处理,就可以自动的翻译识别,生成一个可视化报告,可以完全联动起来。
我们可以设想一个照相机的场景,照相机照完后,自动将图片的一系列信息展示出来,而处理对一系列时序图片,就相当于是对视频的处理,我们就能知道视频出现的人物、物体和事件等等,可以得到文字描述。将来或许也我们也就可以是输入一段文字,通过图或者一小段视频表达出来,这样图文的互相转化会产生新的的机会。
(四)现在已经有很多团队开始视频理解方面做研究,未来根据图片,文字生成视频这款,您感觉会需要多少时间?
这首先要有数据集,这些数据应该是有一个视频或者图片对应的描写是什么,但目前来看这方面数据还不够,而为了广泛的应用,我们需要对常见的视频情景做各种人工数据采集。基于这个,再进行神经网络的编解码训练,所以我猜测,如果有数据集,三年之内常见的图文转化的应用都会被做掉。
(五)相关技术
自然语言的这些研究也不是孤立的,实际上它的周围有一些支撑技术,比如说用户画像。基于用户画像,可以提供个性化的服务。
云计算使得训练速度加快,并且很容易的部署,然后机器学习和深度学习,在数据提供的条件下,自动学习其中的知识、建模,然后部署到真正的系统里面。
还有是知识图谱,包含具体领域的一些知识图谱,比如说金融领域的,或者是常识意义上的知识图谱。
所有这些技术综合起来,使自然语言的任务做得更好。
三.参考资料(行业概述,不涉及具体技术细节)
强烈推荐:
周明的北大公开课(视频):https://c.m.163.com/news/l/180148.html?from=special
周明的北大公开课(文字版精华):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=5&sn=8305be3e1fba0ef7ba3ea383b3ade6c8&chksm=797f6dbd4e08e4ab3c61b5e537849f7f918725042d724a99f3f77a6347b7a221fb7f53ae0d6e&mpshare=1&scene=23&srcid=0724fGB6p9zRc1IRmuHul8Mi#rd
推荐:
知乎内容——国内有哪些自然语言处理的牛人或团队?:https://www.zhihu.com/question/24366306
国内顶尖的nlp实验室——哈工大scir(刘挺老师团队):http://ir.hit.edu.cn/
国内顶尖的nlp实验室——中科院自动化所宗成庆教授团队:http://www.nlpr.ia.ac.cn/cip/introduction.htm
哈工大刘挺教授——自然语言处理的十个发展趋势:http://www.sohu.com/a/163571379_633698
知乎内容——自然语言处理怎么最快入门?:https://www.zhihu.com/question/19895141
十分钟学习自然语言处理概述:http://www.cnblogs.com/baiboy/p/learnnlp.html
我爱自然语言处理:http://www.52nlp.cn/
北京大学中文系应用语言学专业:http://ccl.pku.edu.cn/all/info.asp?item=2&page=1&expand=6
李航——NLP有5个基本问题,深度学习有4个做得很好:https://www.toutiao.com/i6410689995593482754/
李航的北大公开课(视频):https://c.m.163.com/news/l/177303.html?from=special
李航的北大公开课(文字版精华):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=3&sn=788fa22a48697d5fb9fcd4e501b6ca74&chksm=797f6dbd4e08e4ab51914d3489dcde38557da37fd64339f67178ca32dbea188a286faba3b5e2&mpshare=1&scene=23&srcid=0724RLmOk8kpaFF3bwKDj5uh#rd
自然语言处理技术(NLP)在推荐系统中的应用:https://blog.csdn.net/heyc861221/article/details/80130263
腾讯犀牛鸟计划:https://ur.tencent.com/article/235
概述:http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/Chapter_01.pdf