文本预处理
主要内容包括:
1.读入文本
2.分词
3.建立字典,将每个词映射到一个唯一的索引(index)
4.将文本从词的序列转换为索引的序列,方便输入模型
具体内容(附代码)链接:https://www.kesci.com/org/boyuai/project/5e42bd745f2816002ce96c45
代码讲解视频链接:伯禹学习平台
选择题
1.
下列哪一项不是构建Vocab类所必须的步骤:
A.词频统计,清洗低频词
B.句子长度统计
C.构建索引到token的映射
D.构建token到索引的映射
答案:B
句子长度统计与构建字典无关
2.
无论use_special_token参数是否为真,都会使用的特殊token是____,作用是用来____。
A.<pad>,在小批量中数据不等长时做填充
B.<bos>,标记句子的开始
C.<eos>,标记句子的结束
D.<unk>,表示未登录词
答案:D