第二届搜狐内容识别大赛第一名分享

第二届搜狐内容识别大赛冠军LuckyRabbit团队的解决方案

本文主要是向大家介绍一下团队的解决方案,具体代码和答辩PPT可以上 github

任务说明

比赛的网站是这里,比赛时长是两个半月、也算是时间很长的一个比赛了

任务要求

比赛的目的是给我们一篇新闻,希望我们给出:

  • 新闻是属于全营销类别、部分营销类别、还是无营销类别。这里相当于是一个分类问题
  • 对部分营销类别的新闻,我们要给出属于营销类别的文本片段和图片。这里是信息抽取和图像分类的问题

数据格式

数据给出来的是原生的HTML格式,如下:

<title>惠尔新品 | 冷色系实木多层地板系列</title> <p>  </p> <br/><p>  <span style="font-size: 16px;">冷色系实木多层系列全新上市</span></p> P0000001.JPEG;P0000002.JPEG; 

我们要先把HTML解析成可训练的文本和图片

评分标准

官方使用的是F1-measure来进行得分评判
[图片上传失败...(image-de9fe1-1531274249256)]

代码流程

模型融合是打比赛的大杀器,我们团队也是采用了这种方案,下面就来介绍一下我们团队的代码流程。

流程框图

流程框图

流程说明

模型融合部分采用的是stacking策略,并且在第二层接了两个trick。模型最后输出的是分类的结果,在后面会接上规则来提取文本片段,图像部分我们采用的ResNet来进行分类。下面来详细说明各个模块

数据预处理

  • 文本翻译数据增强:把中文翻译成英文、再把英文翻译回中文,代码中没有给出,可自行调API接口
  • 图片数据增强:图片旋转、平移、加噪声、过采样
  • 使用jieba分词为基本分词组件
  • 词表的选择:我们尝试过30万的中文词表和10万的中文词表,发现10万左右的词表是比较适合这个任务的

我们还尝试过文本的其他数据增强手段如Drop和random但是对于这个任务效果并不是很好

特征提取

  • TFIDF 特征 + SVD进行降维度
    • 先使用TFIDF来提取关键词特征
    • 由于词表太大,TFIDF的维度会特别高,因此我们使用SVD来进行降维。其实这一整套就相当于是一个LSA变换
  • 字向量特征
    • 字向量训练出来的模型虽然说精度上比词向量要差,但是字向量和词向量的差异性很大,有利于模型融合
  • 基础特征:是否含有手机号、微信号等
  • OCR文字提取
    提取图片上包含的文字来补充文本分类信息,如下图


    ocr例子

单模型

深度学习模型

我们联合了新闻文本和图片上的文本信息来构建模型,基本框架如下图所示


模型基本框架

有几点需要注意

  • Embedding层的共用:模型的参数主要是集中在embedding层,共用可以减小模型参数,防止过拟合
  • ocr和文本分别输入:由于ocr文字提取会有一定误差,我们这里采用了分别输入的方式来避免这种差异性

机器学习模型

  • 输入特征为TFIDF+SVD、Basic Features等
  • 这里OCR出来的结果和新闻文本是做简单拼接的方式
  • 模型有:xgboost、catboost、lightGBM、DNN

训练方式

  • 主办方还提供了未标注的数据集,我们这里是用未标注的数据集来做预训练,相当于是一个良好的初始化,再用正常的训练集来训练我们的模型。
  • 冻结Embedding层和开放Embedding层:由于embedding层的参数过多,我们这里使用的方式是先冻结Embedding层,等模型后面部分收敛了之后,再开放embediing层进行微调。

模型比较

各种模型的得分如下

模型或方法 得分F1-measure
catboost 0.611
xgboost 0.621
lightgbm 0.625
dnn 0.621
textCNN 0.617
capsule 0.625
covlstm 0.630
dpcnn 0.626
lstm+gru 0.635
lstm+gru+attention 0.640

(ps 由于大赛评分系统关闭了,个别模型得分可能不太准确)

模型融合

我们这里采用的是stacking策略,关于模型融合有一篇很好的文章,在这里分享给大家点击链接

Stacking

我们这里采用的stacking总共是两层,如下图


stacking策略
  • ModelX是第一层输出的OOF文件和pred文件
  • 除了ModelX文件之外,我们还需要新闻的特征来做补充,防止模型陷入到ModelX文件中过拟合
  • 第二层使用的是简单DNN来做第一层模型的挑选

Pesudo labeling

下面来介绍一个实战利器,看起来没啥用但是跑出来的结果非常好,这里是一篇教程
简单来说,它就是把模型预测出来的测试集的结果,与训练集联合起来,再重新训练模型然后再预测。这样的好处是可以平滑训练集和测试集数据分布的差异。

Snapshot Ensemble

在stacking第二层模型中我们还加入了深度融合的方法,论文地址
它的好处是在一个训练周期里面可以得到多个具有局部最优解的模型、我们可以用这些模型来做融合。
方法效果如下

模型或方法 得分F1-measure
单一模型 0.642
stacking 0.647
stacking+trick 0.652

总结

感谢搜狐能为我们提供这么好的平台和训练数据、奖品真的超级丰富 ,确实是很用心的在办这个比赛。组团打比赛的感觉真的是非常好,希望下次还能有参加的机会。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容