自定义Tensorflow OP开发经验总结

前言

Tensorflow几年前已经开始用了，之前一直在数据量不大的场景用，而且没有上线serving，很多坑体会不到。最近接手新的项目，重新捡起TF，踏上了不断踩坑的旅程。

自定义OP

使用C++开发自定义op的动机是，在使用tf.dataset 对原始输入的文本数据进行处理，发现性能实在是奇慢无比。猜测可能是封装好的通用方法，实现了许多对当前使用场景冗余的逻辑，于是决定自己开发一个自定义op 来实现decode_csv的功能。

先明确一下输入和输出，这个函数我是放在dataset.map()中使用。

dataset使用

map函数

一开始是打算先map再batch 这样是对每一行进行处理，然而发现这样做之后速度还是慢，因为输入的txt文件太大，先对每一行处理完效率太低。所以改成先batch再map的方式。因此输入就是batch_size 行文本，输出是对应batch的feature，label和weight 。都是二维Tensor

op的写法

#include "tensorflow/core/framework/op.h"
#include "tensorflow/core/framework/op_kernel.h"
#include "tensorflow/core/framework/shape_inference.h"

#include <cstring>
#include <cstdlib>
#include <cmath>
#include <ctime>
#include <vector>
#include <string>
#include <iostream>

namespace tensorflow {

REGISTER_OP("Fextract")
    .Input("line: string")
    .Output("feature: float32")
    .Output("label: float32")
    .Output("weight: float32")
    .SetShapeFn([](::tensorflow::shape_inference::InferenceContext* c) {
    shape_inference::ShapeHandle input_shape;
    TF_RETURN_IF_ERROR(c->WithRank(c->input(0), 1, &input_shape));

    shape_inference::DimensionHandle row_shape = c->Dim(input_shape, 0);

    c->set_output(0, c->Matrix(row_shape, 1976));
    c->set_output(1, c->Matrix(row_shape, 1));
    c->set_output(2, c->Matrix(row_shape, 1));
    return Status::OK();
  });

class FeaturesExtractOp : public OpKernel {
    public:
        explicit FeaturesExtractOp(OpKernelConstruction* context) : OpKernel(context) {
        }

    void Compute(OpKernelContext* context) override {
        const Tensor& input_tensor1 = context->input(0);
        auto input1 = input_tensor1.flat<string>();
        Tensor * feature = NULL;
        Tensor * label  = NULL;
        Tensor * weight  = NULL;

        TensorShape feature_shape({input_tensor1.shape().dim_size(0),1976});
        TensorShape label_shape({input_tensor1.shape().dim_size(0),1});
        TensorShape weight_shape({input_tensor1.shape().dim_size(0),1});

        OP_REQUIRES_OK(context, context->allocate_output(0, feature_shape, &feature));
        OP_REQUIRES_OK(context, context->allocate_output(1, label_shape, &label));
        OP_REQUIRES_OK(context, context->allocate_output(2, weight_shape, &weight));

        auto feature_output = feature->tensor<float,2>();
        auto label_output = label->tensor<float,2>();
        auto weight_output = weight->tensor<float,2>();

        for(int i=0;i<input_tensor1.shape().dim_size(0);i++){
        int output_idx = 0;
        string::size_type p = 0;
        int feature_num = 0;
        float weights =0.0;
        string line = input1(i);
        while(p!=line.size()) {
            if(output_idx ==0){
                    if(feature_num==1976){
                        ++output_idx;
                    }
                    else if(line[p]!=','){
                        feature_output(i,feature_num)=1.0*(line[p]-'0');
                        ++feature_num;

                    }

            }
            if(output_idx==1 && line[p]!=','){
                    ++output_idx;
                    label_output(i,0) = 1.0*(line[p]-'0');

            }
            if(output_idx==2 && line[p]!=','){
                    weights= weights*10 + 1.0*(line[p]-'0');
            }
            p++;
        }
        weight_output(i,0)=weights;
        }
    }
};


REGISTER_KERNEL_BUILDER(Name("Fextract").Device(DEVICE_CPU), FeaturesExtractOp);

}// namespace tensorflow

最开始要使用REGISTER_OP注册这个op，可以在这里定义input output还有shape，attribute等。这里因为输入没有带参数，所以没有attribute，只有input，output, shape. 值得一提的是，SetShapeFn里输出是output的行数是通过获取输入shape[0]得到的，输出都是二维的，所以可以使用Matrix.
TF_RETURN_IF_ERROR 是对输入格式进行检查，这里因为对batch_size行进行处理，通过batch()函数转成了一个1维的list,因此这里检查行数是1。也可以不写这句，但是为了确保使用安全，最好还是检查一下。 shape_inference::DimensionHandle row_shape = c->Dim(input_shape, 0); 这句就是获取shape[0]的过程，输入参数0表示获取shape的第0位。
接下来开始写实现op的类了。按照模板，先定义一个构造方法，因为我们没有传入参数，所以这里默认就是空的。由于是继承了OpKernel，所以还是需要把context传给父类。
真正的计算过程实现在Compute方法中，代码还是比较清晰的。需要注意点是
1 . 因为我们的输入是batch_size行的数据，所以需要在代码里获取到这个信息input_tensor1.shape().dim_size(0) 就可以获取到。

输出的tensor需要先定义Tensor，确定shape 然后通过OP_REQUIRES_OK()这个方法初始化对应形状的向量。最后输出的内容是通过Tensor对象里的tensor成员变量来定义的，这里<>里的第二个参数表示输出向量的维度，必须要和上面shape里定义维度一致。输出的结果直接写入该成员变量里即可。
还需通过REGISTER_KERNEL_BUILDER定义方法名，这个是在Python里使用的时候的名字。将方法名和上面的类进行绑定。

打包和使用

all: tfop

TF_INC=/home/recommend/.local/lib/python2.7/site-packages/tensorflow/include
TF_LIB=/home/recommend/.local/lib/python2.7/site-packages/tensorflow


tfop:
    g++ -D_GLIBCXX_USE_CXX11_ABI=0 -DEXTRACT -I. -std=c++11 -shared extracts_op.cc -o extracts_op.so -fPIC -I$(TF_INC) -I$(TF_INC)/external/nsync/public -L$(TF_LIB) -ltensorflow_framework -g

clean:
    rm -f *.o *.pyc

写一个上面的Makefile，输入是上面的源码extracts_op.cc 输出定义为so文件，还有配置好上面的tf的lib路径输入make即可产生so文件。

import os
import tensorflow as tf
library_filename = os.path.join(tf.resource_loader.get_data_files_path(),'./extracts_op.so')
extract_op_module = tf.load_op_library(library_filename)
....
feature,label,weight = extract_op_module.fextract(line)
....

注意使用的方法名首字母要小写，之前在c++文件里定义的是大写

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,492评论 6赞 513
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,048评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,927评论 0赞 358
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,293评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,309评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,024评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,638评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,546评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,073评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,188评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,321评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,998评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,678评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,186评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,303评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,663评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,330评论 2赞 358

自定义Tensorflow OP开发经验总结

前言

自定义OP

op的写法

打包和使用

推荐阅读更多精彩内容