机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。
具体内容(附代码)链接:https://www.kesci.com/org/boyuai/project/5e43f70f5f2816002ceb6357
代码讲解视频链接:伯禹学习平台
选择题
1.
数据预处理中分词(Tokenization)的工作是?
A.把词语、标点用空格分开
B.把字符形式的句子转化为单词组成的列表
C.把句子转化为单词ID组成的列表
D.去除句子中的不间断空白符等特殊字符
答案:B
2.
不属于数据预处理工作的是?
A.得到数据生成器
B.建立词典
C.分词
D.把单词转化为词向量
答案:D
单词转化为词向量是模型结构的一部分,词向量层一般作为网络的第一层。
3.
下列不属于单词表里的特殊符号的是?
A.未知单词
B.空格符
C.句子开始符
D.句子结束符
答案:B
建立词典部分代码,空格不被认为是特殊字符,在该项目里,空格在预处理时被去除。
4.
关于集束搜索(Beam Search)说法错误的是
A.集束搜索结合了greedy search和维特比算法。
B.集束搜索使用beam size参数来限制在每一步保留下来的可能性词的数量。
C.集束搜索是一种贪心算法。
D.集束搜索得到的是全局最优解。
答案:D
5.
不属于Encoder-Decoder应用的是
A.机器翻译
B.对话机器人
C.文本分类任务
D.语音识别任务
答案:C
Encoder-Decoder常应用于输入序列和输出序列的长度是可变的,如选项一二四,而分类问题的输出是固定的类别,不需要使用Encoder-Decoder
6.
关于Sequence to Sequence模型说法错误的是:
A.训练时decoder每个单元输出得到的单词作为下一个单元的输入单词。
B.预测时decoder每个单元输出得到的单词作为下一个单元的输入单词。
C.预测时decoder单元输出为句子结束符时跳出循环。
D.每个batch训练时encoder和decoder都有固定长度的输入。
答案:A