C++ protobuf反射特征工程正确姿势

[toc]

因部门每次加特征,都需要修改protobuf,添加对应protobuf获取的代码。重复性开发是真滴多。因此重构获取特征的版本,通过反射+配置动态获取。每次只需升级pb,就可以获取到对应的特征。

1.1 Message

Message 类继承于 MessageLite 类,业务一般自定义的 refactor_reqs 类继承于Message 类。是自定义的pb类型,继承自Message. MessageLite作为Message基类,更加轻量级一些。

一般使用通过Message的两个接口GetDescriptor/GetReflection,可以获取该类型对应的Descriptor/Reflection。

因为我们的特征都是包含在一个大的Message里头,所以使用FindMessageTypeByName获取Descriptor

const google::protobuf::Reflection* pReflection = pMessage->GetReflection();
const google::protobuf::Descriptor* pDescriptor = pMessage->GetDescriptor();
const ::google::protobuf::Descriptor* pDescriptor =
      google::protobuf::DescriptorPool::generated_pool()->FindMessageTypeByName(msg_name);

1.2 Descriptor

Descriptor是对message类型定义的描述,包括message的名字、所有字段的描述、原始的proto文件内容等。

在类Descriptor 中,可以通过如下方法获取类 FieldDescriptor:

const FieldDescriptor* field(int index) const; // 根据定义顺序索引获取,即从0开始到最大定义的条目
const FieldDescriptor* FindFieldByNumber(int number) const; // 根据定义的message里面的顺序值获取(option string name=3,3即为number)
const FieldDescriptor* FindFieldByName(const string& name) const; // 根据field name获取
const FieldDescriptor* Descriptor::FindFieldByLowercaseName(const std::string & lowercase_name)const; // 根据小写的field name获取
const FieldDescriptor* Descriptor::FindFieldByCamelcaseName(const std::string & camelcase_name) const; // 根据驼峰的field name获取

1.2 FieldDescriptor

FieldDescriptor描述message中的单个字段,例如字段名,字段属性(optional/required/repeated)等。
对于proto定义里的每种类型,都有一种对应的C++类型

const std::string & name() const; // Name of this field within the message.
CppType cpp_type() const; //C++ type of this field.
bool is_required() const; // 判断字段是否是必填
bool is_optional() const; // 判断字段是否是选填
bool is_repeated() const; // 判断字段是否是重复值
int number() const; // Declared tag number.
int index() const; //Index of this field within the message's field array, or the file or extension scope's extensions array.

1.2 Reflection

Reflection主要提供了动态读写pb字段的接口,对pb对象的自动读写主要通过该类完成

读操作和嵌套的message:

 
  virtual int32  GetInt32 (const Message& message,
                           const FieldDescriptor* field) const = 0;
  virtual int64  GetInt64 (const Message& message,
                           const FieldDescriptor* field) const = 0;
  // See MutableMessage() for the meaning of the "factory" parameter.
  virtual const Message& GetMessage(const Message& message,
                                    const FieldDescriptor* field,
                                    MessageFactory* factory = NULL) const = 0;

对于写操作也是类似的接口,例如SetInt32/SetInt64/SetEnum等。

 void SetInt32(Message * message, const FieldDescriptor * field, int32 value) const

读repeated类型字段:

int32 GetRepeatedInt32(const Message & message, const FieldDescriptor * field, int index) const
std::string GetRepeatedString(const Message & message, const FieldDescriptor * field, int index) const
const Message & GetRepeatedMessage(const Message & message, const FieldDescriptor * field, int index) const

写repeated类型字段:

void SetRepeatedInt32(Message * message, const FieldDescriptor * field, int index, int32 value) const
void SetRepeatedString(Message * message, const FieldDescriptor * field, int index, std::string value) const
void SetRepeatedEnumValue(Message * message, const FieldDescriptor * field, int index, int value) const // Set an enum field's value with an integer rather than EnumValueDescriptor. more..

新增重复字段

void AddInt32(Message * message, const FieldDescriptor * field, int32 value) const
void AddString(Message * message, const FieldDescriptor * field, std::string value) const

2.1 特征工程如何使用

有了上面的知识,我们如何使用到自己的工程中呢。

首先我们定义一个proto文件test_refactor.proto

syntax = "proto3";
package test.refactor;

option cc_generic_services = true;

message item_info {    // item 信息 
    int32 source               = 1;
    repeated int32 newsTypes   = 2;
    string name = 3;
};

message user_info {    // 用户信息
    int32 type           = 1;
    repeated int32 sex   = 2;
    string imei = 3;
};

message item_req {
    item_info item = 1;
    user_info user = 2;
};

message refactor_reqs {
    item_req req = 1;
}
  • 业务场景是所有的特征都包括在message的refactor_reqs中,利用这个message我们可以获取到对应的Descriptor
const ::google::protobuf::Descriptor* descriptor =
      google::protobuf::DescriptorPool::generated_pool()->FindMessageTypeByName("test.refactor.refactor_reqs");
  • 在获取对应field name获取对应需要获取的FieldDescriptor,如获取item信息的数据,写为req.item

field_descriptor = descriptor->FindFieldByName("item");

  • 最终每次获取的时候,我们获取的数据都是填充到test::refactor::refactor_reqs refactor_reqs中。

最终可以得到如下:

3.1 初始化获取FiledDescriptor信息

std::vector<const ::google::protobuf::FieldDescriptor*> GenerateDescriptorSegments(
    const std::string& msg_name, const std::string& pb_path) {
  std::vector<const ::google::protobuf::FieldDescriptor*> descriptor_segments;
  const ::google::protobuf::Descriptor* descriptor =
      google::protobuf::DescriptorPool::generated_pool()->FindMessageTypeByName(msg_name);
  if (descriptor == nullptr) {
    LOG(ERROR) << "get descriptor failed";
  }

  std::vector<std::string> segments;
  boost::split(segments, pb_path, boost::is_any_of("."));
  if (segments.empty()) {
    LOG(ERROR) << "parse pb_path segment empty:" << pb_path;
  }

  // 校验解析数据
  const ::google::protobuf::FieldDescriptor* field_descriptor = NULL;
  for (const auto& segment : segments) {
    if (descriptor == nullptr) {
      LOG(ERROR) << "segment:" << segment << ", descriptor null";
      break;
    }
    // // 根据field name获取
    field_descriptor = descriptor->FindFieldByName(segment);
    if (field_descriptor == nullptr) {
      LOG(ERROR) << "find segment:" << segment << ", descriptor null";
      break;
    }
    // repeate字段暂不支持
    if (field_descriptor->is_repeated()) {
      LOG(ERROR) << " is repeated";
      break;
    }
    descriptor_segments.emplace_back(field_descriptor);
    LOG(INFO) << "cpp_type:" << field_descriptor->cpp_type();
    if (field_descriptor->cpp_type() == ::google::protobuf::FieldDescriptor::CPPTYPE_MESSAGE) {
      descriptor = field_descriptor->message_type();
    } else {
      descriptor = nullptr;
    }
  }

  if (field_descriptor == nullptr) {
    // descriptor_segments.clear();
    LOG(ERROR) << "field descriptor null";
  }
  return std::move(descriptor_segments);
}

  • msg_name我们传入test.refactor.refactor_reqs,
  • pb_path解析对应的req.item数据
  • 最终我们可以获取到每个filed对应的FieldDescriptor

3.2 实时获取对应的特征数据

bool ParseFromString(::google::protobuf::Message* last_message,
                 std::vector<const ::google::protobuf::FieldDescriptor*> desc_seg,
                 const std::string& data) {
  auto t1 = butil::gettimeofday_us();
  for (auto& seg : desc_seg) {
    // 处理每一个字段
    auto reflection = last_message->GetReflection();
    // const google::protobuf::Message& submessage = reflection->GetMessage(message, field);
    last_message = reflection->MutableMessage(last_message, seg);
    if (!last_message) {
      LOG(ERROR) << "get message failed, param:";
      break;
    }
  }
  if (!last_message) {
    LOG(ERROR) << "get message failed, key:";
    return false;
  }
  auto suc = last_message->ParseFromString(data);
  LOG(INFO) << "parse suc:" << suc << " feature:" << last_message->Utf8DebugString();
  return suc;
}

  • 将获取到的FieldDescriptor,通过GetReflection逐步初始化。获取到最终数据需要解析的message
  • 最后调用msg->ParseFromString实例化得到最终想要的特征数据

3.3 代码验证

void main() {
  // 构造item特征
  test::refactor::item_info reqs_item;
  reqs_item.set_source(2);
  reqs_item.add_newstypes(3);
  reqs_item.add_newstypes(4);
  reqs_item.set_name("dandyhuang");

  // 构造用户特征
  test::refactor::user_info reqs_user;
  reqs_user.set_imei("dsfdsderw");
  reqs_user.add_sex(3);
  reqs_user.add_sex(4);
  reqs_user.set_type(6666);
    // 从redis获取的item和user特征
  std::string item_data_str = reqs_item.SerializeAsString();
  std::string user_data_str = reqs_user.SerializeAsString();
    
  // 初始化对应需要获取的数据
  auto item_des_seg = GenerateDescriptorSegments("test.refactor.refactor_reqs", "req.item");
  auto user_des_seg = GenerateDescriptorSegments("test.refactor.refactor_reqs", "req.user");
  
  auto t1 = butil::gettimeofday_us();
  // 大proto,获取里头的特征数据
  test::refactor::refactor_reqs refactor_reqs;
  // 解析对应数据
  ParseFromString(&refactor_reqs, item_des_seg, item_data_str);
  LOG(INFO) << "refactor_reqs item:" << refactor_reqs.Utf8DebugString()
            << "name:" << refactor_reqs.req().item().name();
  // 解析对应数据
  ParseFromString(&refactor_reqs, user_des_seg, user_data_str);
  LOG(INFO) << "refactor_reqs user+item:" << refactor_reqs.Utf8DebugString()
            << "imei:" << refactor_reqs.req().user().imei();
  auto t2 = butil::gettimeofday_us();

  // 业务直接解析
  test::refactor::refactor_reqs origin_reqs;
  origin_reqs.mutable_req()->mutable_item()->ParseFromString(item_data_str);
  VLOG(INFO) << "origin_reqs item:" << origin_reqs.Utf8DebugString();
  origin_reqs.mutable_req()->mutable_user()->ParseFromString(user_data_str);
  VLOG(INFO) << "origin_reqs user+item:" << origin_reqs.Utf8DebugString();
  auto t3 = butil::gettimeofday_us();
  VLOG_APP(INFO) << "parse  cost1: " << t2 - t1 << " cost2:" << t3 - t2;
}

4.1 和业务直接解析对比耗时

image-20221110151113654.png

我们看到,反射还是比较耗时的,但耗时阶段其实是在构建反射第一次的时候。后续解析pb_path对应的数据时,耗时和直接业务解析是一致的。

当数据量很大,filed_name字段很多的时候,初始化可以另外启动一个线程去初始化。初始化完毕后,在去做特征反射

4.2 每次反射解析ParseFromString的耗时

refactor_parse.png

大家可以添加我的wx一起交流

我是dandyhuang_,码字不易,有不清楚的可以加w一起交流。

reference

protobuf反射详解

巧用 Protobuf 反射来优化代码,拒做 PB Boy

google protobuf 反射机制学习笔记

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容