《动手学》:文本预处理_课后作业

文本预处理

主要内容包括:

1.读入文本

2.分词

3.建立字典,将每个词映射到一个唯一的索引(index)

4.将文本从词的序列转换为索引的序列,方便输入模型

具体内容(附代码)链接:https://www.kesci.com/org/boyuai/project/5e42bd745f2816002ce96c45

代码讲解视频链接:伯禹学习平台


选择题

1.

下列哪一项不是构建Vocab类所必须的步骤:

A.词频统计,清洗低频词

B.句子长度统计

C.构建索引到token的映射

D.构建token到索引的映射

答案:B

句子长度统计与构建字典无关

2.

无论use_special_token参数是否为真,都会使用的特殊token是____,作用是用来____。

A.<pad>,在小批量中数据不等长时做填充

B.<bos>,标记句子的开始

C.<eos>,标记句子的结束

D.<unk>,表示未登录词

答案:D

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容