2021年NLP入门书籍推荐|理论&实践

对于初学者来说,最系统的入门方法就是买一本好书。相比网络上的内容,书籍是反复审核修改过的,条理上也更加清晰,可以帮大家建立起更完备的知识体系。

今天rumor就从理论和实践两方面梳理一个中文NLP入门书单,帮大家快速入门。趁着新年的折扣季可以买起来了,薄的垫垫茶壶,保护桌子,厚的垫垫显示器,保护颈椎,还可以用来练习量子波动速读。

image

注:想组队学习的同学可以按文末的方式加入交流群

理论

理论方面主要还是从统计机器学习和深度学习出发,先打牢基础,NLP很多时候只是把输入输出改变而已。目前神经网络在NLP领域的效果已大大领先,所以先推荐两本这方面的书籍。

《神经网络与深度学习》

首推邱锡鹏老师的这本书,一方面是出版时间很新(20年5月),另一方面是书相对较小,不会给初学者造成太大压力。

image

《深度学习》

其次必须推荐花书,花书不是一次就能读完读透的,已经有基础的同学可以当作工具书来用,在碰到难题或者面试前都可以翻翻。没有基础的同学最好先看上一本。

image

除了深度学习之外,经典的统计方法也是需要了解的,业界也有一些应用场景,像分词这样对速度要求高的任务不必要上神经网络,经典方法足矣。

《自然语言处理入门》

这本是HanLP的作者何晗出品的,HanLP是Github上一个21k的项目,基于Java高效地实现了分词、词性标注等通用句法、语义任务,虽然不是研究层面的,但在工业界应用十分广泛,很多公司的分词基础组件都是基于HanLP改的。当年我优化分词模块的时候也拜读了源码,十分佩服作者的功底和学习能力。何晗大佬的这本书主要从统计算法角度讲解,侧重于句法分析任务的理论和实践。

image

《统计自然语言处理》

也是很经典的一本,但出版时间是2013年,很多方法都过时了。不太适合初学者用来入门现在的NLP,但用来了解统计方法是很好的。

image

《数学之美》

数学之美是吴军老师很经典的科普读物,用易懂的语言和故事带我们了解一个个NLP应用。书不厚,适合闲暇时间阅读。强烈推荐。

image

介绍完一些基础理论书籍后,也推荐些各个任务上的应用书籍。其实深入某个子任务最好的办法是去找近一年的综述文献,但找不到、或者没时间阅读大量英文文献的话也可以借助中文书籍过渡。

《知识图谱与深度学习》

刘知远老师、韩旭博士和孙茂松教授20年中出品的书,系统地介绍了知识图谱相关模型及应用,还有各模型的实验测评。

image

《智能问答》+《机器翻译》+《知识图谱》

这三本18年底出版的系列书籍是周明、李沐、赵军三位大佬分别署名的,主要是对该领域进行体系化地分类,再介绍历任模型、数据集等,可以当综述看。

image

《文本情感分析》

由中科院靳小龙团队在19年11月出版,比较新,系统地介绍了情感分析领域。

image

《机器阅读理解》

斯坦福博士、微软研究员朱晨光20年初的书,除了阅读理解外还介绍了NLP基础,并讲到了最新的BERT,同时配有阅读理解模型代码,适合初入该领域的同学。

image

《百面系列》

Hulu团队出品,基本是面试必备了。虽然基础都学了,但面试时总会发现有知识点遗漏,这两本可以帮忙迅速补救。

image

实践

实战的书选起来没有理论书那么纠结,现在框架都封装得很好了,如果明白原理且有一定编程基础,再看下代码就差不多懂了,甚至不买书直接去找源码也是可以的。书的好处是代码更加规范,配有一定注释且风格一致,选取自己倾向的一门语言去看即可,难度上 Keras<Pytorch<Tensorflow。

《动手深度学习》

李沐在19年中出版的实战书,虽然使用了MXNet这个框架,但概念的讲解和Python实现都不错,适合快速上手。目前的深度学习框架都差不多,蹭别人源码时用pytorch和tensorflow都有可能,不用太拘泥,初入门主要学习模型的逻辑。

image

《自然语言处理实战》

如果不想看MXNet,可以参考这本比较新的书,20年底出版,配有Keras代码,比其他深度学习框架都容易些。

image

《TensorFlow自然语言处理》

19年7月出版,从词向量到文本生成都有讲,还不错。

image

买书和学习

现在书籍的数量越来越多了,上述列表只是我个人筛选的结果,有些同样经典但较老的书籍就没有推荐,如有遗漏欢迎补充。同学们自己找的话,建议选择出版时间近两年、由知名业内大佬出版的图书,同时也可以看下京东、当当上的评论,避免踩坑。看书的时候,不必要求自己一口气看完,可以参考这篇NLP学习路线,先刷一遍重要的知识点,再辅以实践去慢慢深入。

遗憾的是,上述书籍都没有涉及太多BERT之后的进展。所以书籍只是入门的辅助,帮大家打牢基础、建立知识体系,真正深入前沿还需要阅读更多的英文论文,读起来困难的话可以参考中文博客和知乎。

2021年了,要继续保持学习的心态鸭 (ง •̀_•́)ง

推荐资料


欢迎初入NLP领域的小伙伴们加入rumor建立的「NLP卷王养成群」一起学习,添加微信leerumorrr备注简书+NLP即可,群里的讨论氛围非常好~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355