1、Word Embedding 词语向量化
仅仅把词语编号,没有体现语义之间的关联,
尽量保证相似的词语有相似的特征,从而尽量可以方便语义理解
这个特征也是通过机器学习得到的
怎样学习能得到具备词义的特征?
shape (samples, sequence_length, embedding_dimensionality)
2. 向量化数据学习过程实例(以影评为例)
"how to train and visualize word embeddings from scratch"
step1.加载文本信息
(train_data, test_data), info = tfds.load
step2.数据padding。 每一条评论用10个数据表示。不足十个的补零
train_batches = train_data.shuffle(1000).padded_batch(10, padded_shapes=([None],[]))
step3.word embedding 把整数序号的过程 转为向量化词汇
step4.每条评论10个词汇取平均 得到一个特征值
step5.加个16个节点的relu 网络层
step6.给个sigmoid二分层
step7.编译并训练
step8.获得学好了的embedding层 写入文件