2018科大讯飞AI营销算法大赛[1]

题目背景


本次大赛提供了讯飞AI营销云的海量广告投放数据,参赛选手通过人工智能技术构建预测模型预估用户的广告点击概率,即给定广告点击相关的广告、媒体、用户、上下文内容等信息的条件下预测广告点击概率。希望通过本次大赛挖掘AI营销算法领域的顶尖人才,共同推动AI营销的技术革新。

基本数据
字段 解释
instance_id 样本id
click 是否点击
广告信息
字段 解释
adid 广告id
advert_id 广告主id
orderid 订单id
advert_industry_inner 广告主行业
advert_name 广告主名称
campaign_id 活动id
creative_id 创意id
creative_type 创意类型
creative_tp_dnf 样式定向id
creative_has_deeplink 响应素材是否有deeplink(Boolean)
creative_is_jump 是否是落页跳转(Boolean)
creative_is_download 是否是落页下载(Boolean)
creative_is_js 是否是js素材(Boolean)
creative_is_voicead 是否是语音广告(Boolean)
creative_width 创意宽
creative_height 创意高
媒体信息
字段 解释
app_cate_id app分类
f_channel 一级频道
app_id 媒体id
inner_slot_id 媒体广告位
app_paid app是否付费
用户信息
字段 解释
user_tags 用户标签信息,以逗号分隔
上下文信息
字段 解释
city 城市
carrier 运营商
time 时间戳
province 省份
nnt 联网类型
devtype 设备类型
os_name 操作系统名称
osv 操作系统版本
os 操作系统
make 品牌(例如:apple)
model 机型(例如:"iphone")

初探数据


让我们先来看看数据,在data下面round1_iflyad_train.txt和round1_iflyad_test_feature.txt分别放着官方给的训练集和测试集

import numpy as np
import pandas as pd

data_train_org = pd.read_csv("data/round1_iflyad_train.txt",sep='\t');
data_test_org = pd.read_csv("data/round1_iflyad_test_feature.txt",sep='\t');

data_all = pd.concat([data_train_org, data_test_org],ignore_index=True)
data_all.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1041674 entries, 0 to 1041673
Data columns (total 35 columns):
adid                     1041674 non-null int64
advert_id                1041674 non-null int64
advert_industry_inner    1041674 non-null object
advert_name              1041674 non-null object
app_cate_id              1039376 non-null float64
app_id                   1039376 non-null float64
app_paid                 1041674 non-null bool
campaign_id              1041674 non-null int64
carrier                  1041674 non-null int64
city                     1041674 non-null int64
click                    1001650 non-null float64
creative_has_deeplink    1041674 non-null bool
creative_height          1041674 non-null int64
creative_id              1041674 non-null int64
creative_is_download     1041674 non-null bool
creative_is_js           1041674 non-null bool
creative_is_jump         1041674 non-null bool
creative_is_voicead      1041674 non-null bool
creative_tp_dnf          1041674 non-null int64
creative_type            1041674 non-null int64
creative_width           1041674 non-null int64
devtype                  1041674 non-null int64
f_channel                79777 non-null object
inner_slot_id            1041674 non-null object
instance_id              1041674 non-null int64
make                     938631 non-null object
model                    1033881 non-null object
nnt                      1041674 non-null int64
orderid                  1041674 non-null int64
os                       1041674 non-null int64
os_name                  1041674 non-null object
osv                      1033463 non-null object
province                 1041674 non-null int64
time                     1041674 non-null int64
user_tags                718672 non-null object
dtypes: bool(6), float64(3), int64(17), object(9)
memory usage: 236.4+ MB

可以看到部分字段有缺失:

  • f_channel一级频道只有79777
  • user_tags用户标签信息718672

这两个字段缺失较多

特征选取


首先根据经验选取一些基础特征做一个baseline

  • advert_industry_inner:不同行业的广告效果应该是会不一样
  • creative_type:广告创意不同对用户的吸引力会有所不同
  • app_cate_id:app分类可以认为用户对这一类有所偏好,比如玩游戏的用户更加可能点击游戏类广告
  • inner_slot_id:不同位置广告点击率是不一样
  • city:地域性
  • province:地域性
  • carrier:运行商
  • nnt:联网类型
  • devtype:设备类型
  • os_name:操作系统

缺失处理
app_cate_id缺失项较少暂时用NULL填充

def set_missing_value(data):
    data['app_cate_id_full']=data.app_cate_id
    data.loc[data.app_cate_id_full.isnull(),'app_cate_id_full']= "NULL"
    data.drop(['app_cate_id'], axis=1, inplace=True)

def attribute_to_number(data):
    columnNames = [
        'advert_industry_inner',#广告主行业
        'creative_type',#创意类型
        'app_cate_id_full',#app分类
        'inner_slot_id',
        'city',#城市
        'province',#省份
        'carrier',#运营商
        'nnt',#网络
        'devtype',#设备类型
        'os_name'#系统名字
    ]

    for name in columnNames:       
        data[name+"_factorize"] = pd.factorize(data[name].values , sort=True)[0] + 1
    data.drop(columnNames, axis=1, inplace=True)
    
    return data
    
def make_new_feature(data):
    pass

featureNames = [
    #广告信息
    'advert_industry_inner',#广告主行业,效果微弱
    'creative_type',#创意类型
    #媒体信息
    'app_cate_id',#app分类
    'inner_slot_id',#广告位
    #上下文信息
    'city',#城市
    'carrier',#运营商
    'province',#省份
    'nnt',#网络
    'devtype',#设备类型
    'os_name',#系统名字
    'click'
    ]
data_use = data_all[featureNames].copy()
set_missing_value(data_use)
make_new_feature(data_use)
#编码数据
data_now = attribute_to_number(data_use)
data_now.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1041674 entries, 0 to 1041673
Data columns (total 11 columns):
click                              1001650 non-null float64
advert_industry_inner_factorize    1041674 non-null int64
creative_type_factorize            1041674 non-null int64
app_cate_id_full_factorize         1041674 non-null int64
inner_slot_id_factorize            1041674 non-null int64
city_factorize                     1041674 non-null int64
province_factorize                 1041674 non-null int64
carrier_factorize                  1041674 non-null int64
nnt_factorize                      1041674 non-null int64
devtype_factorize                  1041674 non-null int64
os_name_factorize                  1041674 non-null int64
dtypes: float64(1), int64(10)
memory usage: 87.4 MB

随机森林建模


data_now.drop(['click'], axis=1, inplace=True)
data_train = data_now[0:data_train_org.shape[0]][:].copy()
data_test = data_now[data_train_org.shape[0]:][:].copy()
y = data_train_org.click

predictors = data_train.columns

from sklearn import model_selection
from sklearn.ensemble import RandomForestClassifier

alg=RandomForestClassifier(random_state=1,n_estimators=100,min_samples_split=1000,min_samples_leaf=50,n_jobs=-1) 
kf=model_selection.KFold(n_splits=10,shuffle=False,random_state=1)
 
scores=model_selection.cross_val_score(alg,data_train[predictors],y,cv=kf)
 
print(scores)
print(scores.mean())
[0.80614985 0.80197674 0.80689862 0.80233615 0.80473219 0.80007987
 0.80536115 0.79934109 0.80501173 0.80516148]
0.8037048869365547

交叉测试分数0.8037感觉还行,那我们就训练模型提交吧!

alg.fit(data_train[predictors],y)
result = alg.predict_proba(data_test[predictors])[:,1]

result = pd.DataFrame({ 'instance_id': data_all[data_train_org.shape[0]:].instance_id,'predicted_score':result.astype(np.float32)})
result.to_csv("result.csv", index=False)
结果

格式正确,这就去提交啦啦啦!


成绩

总结

第一次写文章难免有点图多字少实在抱歉!其实自己也是机器学习初学者,希望能和大家多多交流学习。
虽然已经提交了成绩,但这只是一个开始后续还有更多可以做的。

  • 更多特征挖掘
  • 构建新特征
  • 模型融合

如果有机会我会将后续的更多尝试都写出来。
由于个人能力有限难免会出现错误之处,还望各位斧正。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容

  • # 一度蜜v3.0协议 --- # 交互协议 [TOC] ## 协议说明 ### 请求参数 下表列出了v3.0版协...
    c5e350bc5b40阅读 642评论 0 0
  • 第1章 初涉MySQL 1.1 MySQL文件 (1)MySQL目录结构 (2)MySQL配置向导文件(安装后配置...
    凛0_0阅读 783评论 1 0
  • 安装与配置 安装xampp(为了使用mysql数据库):点击MySQL的start以启动mysql 配置环境变量(...
    jxvl假装阅读 415评论 0 0
  • 美团作为中国最大的在线本地生活服务平台,覆盖了餐饮、酒店、旅行、休闲娱乐、外卖配送等方方面面生活场景,连接了数亿用...
    猿学阅读 885评论 0 5
  • Info.plist 用于向 iOS 提供关于 app , bundle 或者 framework 的一些重要信息...
    Alfred_小乐阅读 2,414评论 1 0