自然语言处理概述

一.nlp的主要应用与基础技术(个人总结)

应用:

1.翻译(已经做得比较很不错了,但是实时翻译还有所不足)***

2.对话(还有非常对的技术壁垒,可做的东西很多)***

3.文本数据挖掘(eg,情感分析,kaggle竞赛之双高预测)

4.信息检索(eg,百度搜索)

5.文本生成,写诗,写事件报道(一场比赛结束,比赛的信息存在一个数据库里。还有现场直播的解说词,通过时间轴可以找到对应关系。那现在,一场足球比赛结束,马上就要一个体育报道,这个报道就能形成。报道的文字出来之后,还要自动找图片配上去,这就涉及到选哪个图片是最好的,配完图片就形成一个完整体育报道。)

6.其他,如会议系统,如筛选简历(信息抽取),word里语法检查等

如果是语音信号,在使用nlp之前,需要做语音信号处理(个人理解),下图来自于腾讯犀牛鸟计划:

用到的最基础的技术:

分词(中文分词常用jieba,https://blog.csdn.net/flysky1991/article/details/73948971),文本特征提取(把字符串、文本转化为机器学习模型可处理的数值特征:TfidfVectorizer),文本相似度计算(常用于信息检索、数据挖掘、机器翻译等,https://blog.csdn.net/flysky1991/article/details/72786820).......

二.关键的几个问题(摘自msra周明的北大公开课)

(一)有了大数据、神经网络、不断完善的网络结构、云计算、落地场景、未来的NLP会发展的越来越好。有几点预测:

1、未来的口语机器翻译一定是普及的,出国的语言交流将不是问题;

2、聊天系统越来越实用;

3、电脑创作诗词,小说,歌曲将会流行起来;

4、语音助手,物联网,智能家居,智能硬件等等都会因为自然语言的发展而普及起来;

5、与其他AI技术一起再金融、法律、教育、医疗上得到广泛应用。

整体上人工智能会提升人的生活质量,普惠所有人,因此我认为自然语言是未来的一个很好的方向。

(二)自然语言领域还有哪些的题目还能选呢?

神经网络机器翻译还可以在做,例如生词、篇章级的处理还不好,而且领域迁移做的不好,这些领域还可以进一步研究。第二个思路,用小数据集来训练机器翻译系统。

第二个方向,针对问答系统(QA),除了可以针对知识库来做,还可以无结构的文本集,表格图片。第二个和QA有关的是语义分析。

第三个方向是多轮对话,如何更好地建模上下文,甚至用户的不同时期的回复来生成好的回复。

最后还有很多跨学科跨领域的地方,例如歌曲创作等等。

而未来创业呢?主要考虑场景,先从市场需求出发,反推需要的技术。需要大家了解市场,可以通过在公司实习,了解实际需求,来反思学校学到的东西,哪些是用的上的,哪些还不行。也许可以发现我们未来创业的机会。

(三)视频现在是现象级的事件,发展很强劲,那么关于视频,它和自然语言怎么结合,未来会爆发出哪些和自然语言有关的应用场景?

现在的趋势是图文结合越来越紧密,一个图用关键词和一段话进行描述,而视频也是一样的,这方面的研究是方兴未艾,没有做的很好,假设这个技术越来越好的情况下,就能产生很多应用。

把物理和数字联系起来,例如用照相机对实物拍照时,电脑已经知道这个图景的属性,将这些属性再经过自然语言处理,就可以自动的翻译识别,生成一个可视化报告,可以完全联动起来。

我们可以设想一个照相机的场景,照相机照完后,自动将图片的一系列信息展示出来,而处理对一系列时序图片,就相当于是对视频的处理,我们就能知道视频出现的人物、物体和事件等等,可以得到文字描述。将来或许也我们也就可以是输入一段文字,通过图或者一小段视频表达出来,这样图文的互相转化会产生新的的机会。

(四)现在已经有很多团队开始视频理解方面做研究,未来根据图片,文字生成视频这款,您感觉会需要多少时间?

这首先要有数据集,这些数据应该是有一个视频或者图片对应的描写是什么,但目前来看这方面数据还不够,而为了广泛的应用,我们需要对常见的视频情景做各种人工数据采集。基于这个,再进行神经网络的编解码训练,所以我猜测,如果有数据集,三年之内常见的图文转化的应用都会被做掉。

(五)相关技术

自然语言的这些研究也不是孤立的,实际上它的周围有一些支撑技术,比如说用户画像。基于用户画像,可以提供个性化的服务。

云计算使得训练速度加快,并且很容易的部署,然后机器学习和深度学习,在数据提供的条件下,自动学习其中的知识、建模,然后部署到真正的系统里面。

还有是知识图谱,包含具体领域的一些知识图谱,比如说金融领域的,或者是常识意义上的知识图谱。

所有这些技术综合起来,使自然语言的任务做得更好。


三.参考资料(行业概述,不涉及具体技术细节)

强烈推荐:

周明的北大公开课(视频):https://c.m.163.com/news/l/180148.html?from=special

周明的北大公开课(文字版精华):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=5&sn=8305be3e1fba0ef7ba3ea383b3ade6c8&chksm=797f6dbd4e08e4ab3c61b5e537849f7f918725042d724a99f3f77a6347b7a221fb7f53ae0d6e&mpshare=1&scene=23&srcid=0724fGB6p9zRc1IRmuHul8Mi#rd

推荐:

知乎内容——国内有哪些自然语言处理的牛人或团队?:https://www.zhihu.com/question/24366306

国内顶尖的nlp实验室——哈工大scir(刘挺老师团队):http://ir.hit.edu.cn/

国内顶尖的nlp实验室——中科院自动化所宗成庆教授团队:http://www.nlpr.ia.ac.cn/cip/introduction.htm

哈工大刘挺教授——自然语言处理的十个发展趋势:http://www.sohu.com/a/163571379_633698

知乎内容——自然语言处理怎么最快入门?:https://www.zhihu.com/question/19895141

十分钟学习自然语言处理概述:http://www.cnblogs.com/baiboy/p/learnnlp.html

我爱自然语言处理:http://www.52nlp.cn/

北京大学中文系应用语言学专业:http://ccl.pku.edu.cn/all/info.asp?item=2&page=1&expand=6

李航——NLP有5个基本问题,深度学习有4个做得很好:https://www.toutiao.com/i6410689995593482754/

李航的北大公开课(视频):https://c.m.163.com/news/l/177303.html?from=special

李航的北大公开课(文字版精华):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=3&sn=788fa22a48697d5fb9fcd4e501b6ca74&chksm=797f6dbd4e08e4ab51914d3489dcde38557da37fd64339f67178ca32dbea188a286faba3b5e2&mpshare=1&scene=23&srcid=0724RLmOk8kpaFF3bwKDj5uh#rd

自然语言处理技术(NLP)在推荐系统中的应用:https://blog.csdn.net/heyc861221/article/details/80130263

腾讯犀牛鸟计划:https://ur.tencent.com/article/235

概述:http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/Chapter_01.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • References: 《speech and language processing 》2nd & 3rd 《统...
    艺术叔阅读 7,706评论 1 8
  • 1.如何对待情绪。 当你们不再把注意力放在外在环境,而是放在自己的反应和痛苦上时,就不会再把外在世界当成情绪...
    xiaomianger阅读 682评论 0 0
  • 在这样的环境下写字是相当舒服的!至少这样的光线是我喜欢的,特意搞了个台灯放着,这个光线很是舒服! 写写东西,思考一...
    景德镇的故事阅读 84评论 0 2
  • 她在高中待了两年,因为学习跟不上决定转学。同学们很舍不得她,因为她在每个人的心中,都是一个活泼开朗,阳光向上又温...
    阑尘阅读 222评论 5 2