2019-11-06 广告点击率预测：DeepCTR 库的简单介绍

很幸运， CTR 领域有一个方便易用的工具包——“deepctr”，它的出现不仅仅降低了广告点击率预测模型的上手难度，方便进行模型对比，也让给了我们机会从这些优秀的源码中学习到构建模型的方式。
接下来我就简单介绍一下这个库：

1. 内容

&emps;内容上，作者是实现了 2015~2019 年一些重要的 CTR 模型，譬如 2015年的 CCPM，2019年的 FGCNN 等等。类别上基本都是深度学习模型，不会涉及很多传统的模型，相信作者还会持续跟进。之后我会在这里介绍一下 CCPM（Convolutional Click Prediction Model）。

2. 使用(样例摘自作者的quick start)

作者对模块的集成度很高，所以在实际调用模型的时候，非常地简洁和清晰，一个完整的步骤一般可以分为 4 步进行：

step 1: 引入模型 & 读入数据

引入模型指的是引入必要的库函数及所需模型，示例如下：

import pandas as pd    # 表格类型的数据处理推荐使用这个库
from sklearn.preprocessing import LabelEncoder, MinMaxScaler  # 顾名思义，不解释了，后一个应该是给 feature value 设置最值
from sklearn.model_selection import train_test_split # 划分训练集、测试集的
from deepctr.models import CCPM   # 引入我想要用到的模型
from deepctr.inputs import SparseFeat, DenseFeat, get_feature_names  # 处理离散数据、稠密数据以及特征名称

data = pd.read_csv('./criteo_sample.txt')

sparse_features = ['C'+str(i) for i in range(1, 27)]
dense_features = ['I'+str(i) for i in range(1, 14)]

data[sparse_features] = data[sparse_features].fillna('-1', )
data[dense_features] = data[dense_features].fillna(0, )
target = ['label']

step 2: 数据预处理

1. 稀疏特征（sparse features） 是需要编码的，因为诸如“05db9164”这样的特征，是无法输入到模型里面的。有两种常见的简单方法来对稀疏类别进行编码：

Label Encoding: 将特征映射到 0～len(#unique)-1 的整形数值上

for feat in sparse_features:
  lbe = LabelEncoder()
  data[feat] = lbe.fit_transform(data[feat])

Hash Encoding: 将特征映射到一个固定的范围呢，譬如 0~9999，有两种方法来实现：

a. 在训练之前进行特征 hashing

for feat in sparse_features:
    lbe = HashEncoder()
    data[feat] = lbe.transform(data[feat])

> b. 在训练过程中进行动态 hashing 处理

只需要在Step 3中，在SparseFeat或VarlenSparseFeat中设置 use_hash=True即可

对 稠密特征（dense features） 进行归一化处理

mms = MinMaxScaler(feature_range=(0, 1))
data[dense_features] = mms.fit_transform(data[dense_features])

3. 生成特征 columns

这里看的不是特别明白，有待于我自己去看源码再回来完善
对于 dense features，通过 embedding 的方式将其转换为稠密向量（dense vectors）。对于稠密的数字特征（dense numerical features），将其拼接在全连接层的输入张量上。

Label Encoding

sparse_feature_columns = [SparseFeat(feat, data[feat].nunique())
                        for feat in sparse_features]
dense_feature_columns = [DenseFeat(feat, 1)
                      for feat in dense_features]

动态特征哈希（Feature Hashing on the fly）

sparse_feature_columns = [SparseFeat(feat, dimension=1e6,use_hash=True) for feat in sparse_features]#The dimension can be set according to data
dense_feature_columns = [DenseFeat(feat, 1)
                      for feat in dense_features]

最后，生成 feature columns

dnn_feature_columns = sparse_feature_columns + dense_feature_columns
linear_feature_columns = sparse_feature_columns + dense_feature_columns
feature_names = get_feature_names(linear_feature_columns + dnn_feature_columns)

Step 4: 生成训练数据，并训练模型

train, test = train_test_split(data, test_size=0.2)

train, test = train_test_split(data, test_size=0.2)

train_model_input = {name:train[name].values for name in feature_names}
test_model_input = {name:test[name].values for name in feature_names}


model = CCPM(linear_feature_columns,dnn_feature_columns,task='binary')
model.compile("adam", "binary_crossentropy",
              metrics=['binary_crossentropy'], )

history = model.fit(train_model_input, train[target].values,
                    batch_size=256, epochs=10, verbose=2, validation_split=0.2, )
pred_ans = model.predict(test_model_input, batch_size=256)