使用Tensorflow Dataset读取数据

转载自:https://blog.csdn.net/foreseerwang/article/details/80572182

    注意,Dataset.from_generator在旧版Tensorflow中没有,在1.4版本以上才有tf.data.Dataset。

      tensorflow的基本原理是先构造一个计算图,最后再统一计算。为此,tf重写了几乎所有常见函数,用于构造计算图,而且tensorflow不支持循环、选择(if 跳转)等普通编程语言的常见操作。这就给编程使用带来比较大的麻烦。

      Dataset.from_generator可以使用普通编程语言编写的外部子函数生成Dataset,这样几乎不受tensorflow编程不便的影响。先举一个最简单的示例:

import numpy as np

import tensorflow as tf

def data_generator():

    dataset = np.array(range(5))

    for d in dataset:

        yield d

dataset = tf.data.Dataset.from_generator(data_generator, (tf.int32), (tf.TensorShape([])))

dataset = dataset.repeat(3)

dataset = dataset.batch(4)

iterator = dataset.make_one_shot_iterator() #one-shot iterator 是最简单的一种遍历器。这种遍历器只支持#遍历单一dataset,并且还不需要显式的初始化。

one_element = iterator.get_next()

with tf.Session() as sess:

    try:

        batch_num=0

        while True:

            one_batch = sess.run(one_element)

            print('Batch No. %d:' % batch_num)

            print(one_batch)

            print('')

            batch_num+=1

    except tf.errors.OutOfRangeError:

        print('end!')

很显然,这个的输出如下:

Batch No. 0:

[0 1 2 3]

Batch No. 1:

[4 0 1 2]

Batch No. 2:

[3 4 0 1]

Batch No. 3:

[2 3 4]

end!

下面给出一个复杂的问题。假设需要输入如下序列:A BA C BC…其中A/B/C分别代表一个文件,例如一张图片或是一个文本文件。每一行是一条记录,按行读入,并聚集多行形成batch,譬如每4行形成一个batch。这里有两个难点:1.每一行/每一条记录的元素长度不一样;2.读入元素A/B/C之后还要以之作为文件名读入文件内容。现有各种data feeding方式似乎很难同时解决这两个难点,除了Dataset.from_generator。

import io

import numpy as np

import tensorflow as tf

class DataFeeder:

    def __init__(self, filenames):

        self.filenames = filenames

    def file_readline(self):

        for filename in self.filenames:

            fr = io.open(filename, 'r', encoding='utf-8')

            while True:

                file_line = fr.readline()

                if not file_line:

                    break

                datalist = file_line.split()

                # if datalist is a list of filename, file contents can

                # be read and appendded here.

                yield np.asarray(datalist, dtype='int32')

            fr.close()

    def generate_batch(self, batch_size, num_epochs=None):

        dataset = tf.data.Dataset.from_generator(self.file_readline,

                                                tf.int32,

                                                tf.TensorShape([None]))

        dataset = dataset.repeat(num_epochs)

        dataset = dataset.padded_batch(

            batch_size,

            padded_shapes=tf.TensorShape([3]),

            padding_values=-1)

        iterator = dataset.make_one_shot_iterator()

        out_batch = iterator.get_next()

        return out_batch

filenames = ['a.txt', 'b.txt', 'c.txt']

data_feeder = DataFeeder(filenames)

one_batch = data_feeder.generate_batch(batch_size=2, num_epochs=1)

with tf.Session() as sess:

    try:

        batch_num = 0

        while True:

            data_batch = sess.run(one_batch)

            print('Batch No. %d:' % batch_num)

            print(data_batch)

            print('')

            batch_num+=1

    except tf.errors.OutOfRangeError:

        print('end!')

其中三个文本文件a.txt/b.txt/c.txt的内容分别如下:

a.txt:

1 2 3

2 3

3

b.txt:

4 5

6 7 8

9

c.txt:

10 11 12

13 14

15

运行以上代码的输出为:

Batch No. 0:

[[ 1  2  3]

[ 2  3 -1]]

Batch No. 1:

[[ 3 -1 -1]

[ 4  5 -1]]

Batch No. 2:

[[ 6  7  8]

[ 9 -1 -1]]

Batch No. 3:

[[10 11 12]

[13 14 -1]]

Batch No. 4:

[[15 -1 -1]]

end!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,084评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,623评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,450评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,322评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,370评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,274评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,126评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,980评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,414评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,599评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,773评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,470评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,080评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,713评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,852评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,865评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,689评论 2 354

推荐阅读更多精彩内容