登录注册写文章

《动手学》：文本预处理_课后作业

《动手学》：文本预处理_课后作业

文本预处理

主要内容包括：

1.读入文本

2.分词

3.建立字典，将每个词映射到一个唯一的索引（index）

4.将文本从词的序列转换为索引的序列，方便输入模型

具体内容(附代码)链接：https://www.kesci.com/org/boyuai/project/5e42bd745f2816002ce96c45

代码讲解视频链接：伯禹学习平台

选择题

1.

下列哪一项不是构建Vocab类所必须的步骤：

A.词频统计，清洗低频词

B.句子长度统计

C.构建索引到token的映射

D.构建token到索引的映射

答案：B

句子长度统计与构建字典无关

2.

无论use_special_token参数是否为真，都会使用的特殊token是____，作用是用来____。

A.<pad>，在小批量中数据不等长时做填充

B.<bos>，标记句子的开始

C.<eos>，标记句子的结束

D.<unk>，表示未登录词

答案：D

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

第二天-文本预处理,语言模型,循环神经网络
文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常...
LinuxLeeSinYY阅读 3,902评论 0赞 0
《Deep Learning with Python》第六章 6.1 深度学习之文本处理
6.1 深度学习之文本处理文本是序列数据传播最广泛的形式之一，它可以理解成一个字母序列或者词序列，但是最常见的形...
神机喵算阅读 6,655评论 0赞 22

女孩子就应该活的精致
之前的我，很没有自信，总觉得找一个懂我爱我的人就好，觉得外在的打扮都是表面的东西，可是往往第一印象却对人十分的重要...
肖晓玲阅读 2,498评论 0赞 1
分享推荐能在手机上用的俄语学习软件
从大学开始学习俄语，到现在也有几个年头了，现在我总结了一下俄语学习中能用到的几个软件，跟大家分享一下。都是亲测过的...
胖柿子阅读 18,292评论 10赞 46
为了靠近喜欢的人和事
现在的年轻人越来越清楚自己想要什么了朋友是个非常上进的人，放弃了舒适的和有着大好前景的工作，搬出有点吵闹的家，在...
林东啊阅读 3,214评论 0赞 4

友情链接更多精彩内容

赞1赞

赞赏

手机看全文