2019-11-06 广告点击率预测:DeepCTR 库的简单介绍

  很幸运, CTR 领域有一个方便易用的工具包——“deepctr”,它的出现不仅仅降低了广告点击率预测模型的上手难度,方便进行模型对比,也让给了我们机会从这些优秀的源码中学习到构建模型的方式。
  接下来我就简单介绍一下这个库:

1. 内容

 &emps;内容上,作者是实现了 2015~2019 年一些重要的 CTR 模型,譬如 2015年的 CCPM,2019年的 FGCNN 等等 。类别上基本都是深度学习模型,不会涉及很多传统的模型,相信作者还会持续跟进。之后我会在这里介绍一下 CCPM(Convolutional Click Prediction Model)。

2. 使用(样例摘自作者的quick start)

  作者对模块的集成度很高,所以在实际调用模型的时候,非常地简洁和清晰,一个完整的步骤一般可以分为 4 步进行:

step 1: 引入模型 & 读入数据

  引入模型指的是引入必要的库函数及所需模型,示例如下:

import pandas as pd    # 表格类型的数据处理推荐使用这个库
from sklearn.preprocessing import LabelEncoder, MinMaxScaler  # 顾名思义,不解释了,后一个应该是给 feature value 设置最值
from sklearn.model_selection import train_test_split # 划分训练集、测试集的
from deepctr.models import CCPM   # 引入我想要用到的模型
from deepctr.inputs import SparseFeat, DenseFeat, get_feature_names  # 处理离散数据、稠密数据以及特征名称

data = pd.read_csv('./criteo_sample.txt')

sparse_features = ['C'+str(i) for i in range(1, 27)]
dense_features = ['I'+str(i) for i in range(1, 14)]

data[sparse_features] = data[sparse_features].fillna('-1', )
data[dense_features] = data[dense_features].fillna(0, )
target = ['label']
step 2: 数据预处理

  1. 稀疏特征(sparse features) 是需要编码的,因为诸如“05db9164”这样的特征,是无法输入到模型里面的。有两种常见的简单方法来对稀疏类别进行编码:

  • Label Encoding: 将特征映射到 0~len(#unique)-1 的整形数值上
for feat in sparse_features:
  lbe = LabelEncoder()
  data[feat] = lbe.fit_transform(data[feat])
  • Hash Encoding: 将特征映射到一个固定的范围呢,譬如 0~9999,有两种方法来实现:

    a. 在训练之前进行特征 hashing

for feat in sparse_features:
    lbe = HashEncoder()
    data[feat] = lbe.transform(data[feat])
> b. 在训练过程中进行动态 hashing 处理

  只需要在Step 3中,在SparseFeatVarlenSparseFeat中设置 use_hash=True即可

  1. 稠密特征(dense features) 进行归一化处理
mms = MinMaxScaler(feature_range=(0, 1))
data[dense_features] = mms.fit_transform(data[dense_features])
3. 生成特征 columns

这里看的不是特别明白,有待于我自己去看源码再回来完善
  对于 dense features,通过 embedding 的方式将其转换为稠密向量(dense vectors)。对于稠密的数字特征(dense numerical features),将其拼接在全连接层的输入张量上。

  • Label Encoding
sparse_feature_columns = [SparseFeat(feat, data[feat].nunique())
                        for feat in sparse_features]
dense_feature_columns = [DenseFeat(feat, 1)
                      for feat in dense_features]

  • 动态特征哈希(Feature Hashing on the fly)
sparse_feature_columns = [SparseFeat(feat, dimension=1e6,use_hash=True) for feat in sparse_features]#The dimension can be set according to data
dense_feature_columns = [DenseFeat(feat, 1)
                      for feat in dense_features]
  • 最后,生成 feature columns
dnn_feature_columns = sparse_feature_columns + dense_feature_columns
linear_feature_columns = sparse_feature_columns + dense_feature_columns
feature_names = get_feature_names(linear_feature_columns + dnn_feature_columns)
Step 4: 生成训练数据,并训练模型
train, test = train_test_split(data, test_size=0.2)

train, test = train_test_split(data, test_size=0.2)

train_model_input = {name:train[name].values for name in feature_names}
test_model_input = {name:test[name].values for name in feature_names}


model = CCPM(linear_feature_columns,dnn_feature_columns,task='binary')
model.compile("adam", "binary_crossentropy",
              metrics=['binary_crossentropy'], )

history = model.fit(train_model_input, train[target].values,
                    batch_size=256, epochs=10, verbose=2, validation_split=0.2, )
pred_ans = model.predict(test_model_input, batch_size=256)


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343