根据译文片段预测翻译作者

本教程的目的是带领大家学会，根据译文片段预测翻译作者

本次用到的数据集是三个 txt 文本，分别是 cowper.txt、derby.txt、butler.txt ，该文本已经经过一些预处理，去除了表头，页眉等

接下来我们加载数据，这里我们使用 tf.data.TextLineDataset API，而不是之前使用的 text_dataset_from_directory，两者的区别是，前者加载 txt 文件里的每一行作为一个样本，后者是加载整个 txt 文件作为一个样本

DIRECTORY_URL = 'https://storage.googleapis.com/download.tensorflow.org/data/illiad/'

FILE_NAMES = ['cowper.txt', 'derby.txt', 'butler.txt']

for name in FILE_NAMES:

text_dir = utils.get_file(name, origin=DIRECTORY_URL + name)

parent_dir = pathlib.Path(text_dir).parent

list(parent_dir.iterdir())

def labeler(example, index):

return example, tf.cast(index, tf.int64)

labeled_data_sets = []

for i, file_name in enumerate(FILE_NAMES):

lines_dataset = tf.data.TextLineDataset(str(parent_dir/file_name))

labeled_dataset = lines_dataset.map(lambda ex: labeler(ex, i))

labeled_data_sets.append(labeled_dataset)

如上图所示，我们可以看到，txt 文件里的每一行确实是一个样本，其实上面的数据已经经过进一步处理了，变成 (example, label) pair 了

接下来我们需要对文本进行 standardize and tokenize，然后再使用 StaticVocabularyTable，建立 tokens 到 integers 的映射

这里我们使用 UnicodeScriptTokenizer 来 tokenize 数据集，代码如下所示

tokenizer = tf_text.UnicodeScriptTokenizer()

def tokenize(text, unused_label):

lower_case = tf_text.case_fold_utf8(text)

return tokenizer.tokenize(lower_case)

tokenized_ds = all_labeled_data.map(tokenize)

上图是 tokenize 的结果展示

下一步，我们需要建立 vocabulary，根据 tokens 的频率做一个排序，并取排名靠前的 VOCAB_SIZE 个元素

tokenized_ds = configure_dataset(tokenized_ds)

vocab_dict = collections.defaultdict(lambda: 0)

for toks in tokenized_ds.as_numpy_iterator():

for tok in toks:

vocab_dict[tok] += 1

vocab = sorted(vocab_dict.items(), key=lambda x: x[1], reverse=True)

vocab = [token for token, count in vocab]

vocab = vocab[:VOCAB_SIZE]

vocab_size = len(vocab)

print("Vocab size: ", vocab_size)

print("First five vocab entries:", vocab[:5])

接下来，我们需要用 vocab 创建 StaticVocabularyTable，因为 0 被保留用于表明 padding，1 被保留用于表明 OOV token，所以我们的实际 map tokens 的integer 是 [2, vocab_size+2]，代码如下所示

keys = vocab

values = range(2, len(vocab) + 2) # reserve 0 for padding, 1 for OOV

init = tf.lookup.KeyValueTensorInitializer(

keys, values, key_dtype=tf.string, value_dtype=tf.int64)

num_oov_buckets = 1

vocab_table = tf.lookup.StaticVocabularyTable(init, num_oov_buckets)

最后我们要封装一个函数用于 standardize, tokenize and vectorize 数据集，通过 tokenizer and lookup table

def preprocess_text(text, label):

standardized = tf_text.case_fold_utf8(text)

tokenized = tokenizer.tokenize(standardized)

vectorized = vocab_table.lookup(tokenized)

return vectorized, label

上图是关于把 raw text 转化成 tokens 的展示结果

接下来，我们需要对数据集进行划分，然后再创建模型，最后就可以开始训练了，代码如下所示

all_encoded_data = all_labeled_data.map(preprocess_text)

train_data = all_encoded_data.skip(VALIDATION_SIZE).shuffle(BUFFER_SIZE)

validation_data = all_encoded_data.take(VALIDATION_SIZE)

train_data = train_data.padded_batch(BATCH_SIZE)

validation_data = validation_data.padded_batch(BATCH_SIZE)

vocab_size += 2

train_data = configure_dataset(train_data)

validation_data = configure_dataset(validation_data)

model = create_model(vocab_size=vocab_size, num_labels=3)

model.compile(

optimizer='adam',

loss=losses.SparseCategoricalCrossentropy(from_logits=True),

metrics=['accuracy'])

history = model.fit(train_data, validation_data=validation_data, epochs=3)

上图是训练的结果展示，在验证集上的准确率达到了 84.18%

inputs = [

"Join'd to th' Ionians with their flowing robes,", # Label: 1

"the allies, and his armour flashed about him so that he seemed to all", # Label: 2

"And with loud clangor of his arms he fell.", # Label: 0

]

predicted_scores = export_model.predict(inputs)

predicted_labels = tf.argmax(predicted_scores, axis=1)

for input, label in zip(inputs, predicted_labels):

print("Question: ", input)

print("Predicted label: ", label.numpy())

最后我们用训练后的模型进行预测，结果如下图所示

预测结果和实际标签都对应上了

代码地址: https://codechina.csdn.net/csdn_codechina/enterprise_technology/-/blob/master/predict_translations_author.ipynb

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,258评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,335评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,225评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,126评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,140评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,098评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,018评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,857评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,298评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,518评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,678评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,400评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,993评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,638评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,801评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,661评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,558评论 2赞 352

根据译文片段预测翻译作者

推荐阅读更多精彩内容